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Verfahren und Vorrichtungen zur Datenbe- 
Verarbeitung 



Beschreibung 

Die Erfindung beschriebt Verfahren und Methoden zur Verwal- 
tung und zum Transfer von Daten innerhalb von niehrdimensiona- 
len Anordnungen von Sendern und Empfangern. Das Aufteilen ei- 
nes Datenstromes in mehrere unabhangige Zweige und das nach- 
folgende Zusanunenfassen der einzelnen Zweige zu eihem Daten- 
strom soli einfach durchfuhrbar sein, wobei die einzelnen- Da- 
tenstroirte in der korrekten zeitlichen ^Reihenf ol'ge wieder zu- 
sainmengef asst werden-. Insbesoiidere zur Abarbeitung von- reen- 
trantem Code ist dieses Verfahren von .besonderer Wichtigkeit . 
Das beschriebene Verfahren ist insbes"ondere fur konf igurier- 
bare Architekturen geeignet, die. effiziente Steuerung der 
Konf ig.uratioh urid .Rekonf iguration finde't besondere • Beachtung. 

Auf'gabe der Erfindung ist es, Ne'ues fiir die gewerbliche Nut- 
zung bereitzustellen. 
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Die Losung der Aufgabe wird unabhangig beansprucht. Bevorzug- 
te Ausftihrungsformen befinden sich in den Unteranspruchen. 

Unter einer rekonf igurierbaren Architektur werden vorliegend 
5 Bausteine (VPU) mit konf igurierbarer Funktion und/oder Ver- 
netzung verstanden, insbesondere integrierte Bausteine mit 
einer Mehrzahl von ein- oder mehrdimensional angeordneten 
arithmetischen und/oder logischen und/oder analogen und/oder 
speichernden und/oder intern/extern vernetzenden Baugruppen, 
10 die direkt oder durch ein Bussystem miteinander verbunden 
sind. 

• Zur Gattung dieser Bausteine zahlen insbesondere systolische 
Arrays, neuronale Netze, Mehrprozessor Systeme, Prozessoren 

15 mit mehreren Rechenwerken und/oder logischen Zeilen und/oder 
kommunikativen/peripheren Zeilen (10)., Vernetzungs- und Netz- 
werkbausteine wie z.B. Crossbar-Schalter, ebenso wie bekannte 
Bausteine der Gattung FPGA, DPGA, Chameleon, XPUTER, etc.. 
Hingewiesen wird insbesondere in diesem Zusammenhang auf die 

20 folgenden Schutzrechte und Anmeldungen desselben Anmelders: P 
44 16 881.0-53, DE 197' '81 412.3,' DE 197 81 483.2, 
DE 196 54 846.2-53, DE 196.54 593.5-53, DE.197 04 044.6-53, 
DE 198 80 129.7, DE 198 61 088,2-53, DE 1.99 80 312.9, 
PCT/DE 00/01869, DE 100 36 627.9-33, pE i00 28 397.7, 

25 DE 101 10 530.4, DE 101 11 014.6, PCT/EP 00/10516, 

EP 01 102 674.7, PACT 02 , PACT04, PACT05, PAC.T08, PACT10, 
PACT11, PACT13, : PACT21, PACT13, PACT15b,. PACT18 (a) , 
PACT25(a,b). Diese sind hiermit zu Of f enbarungszwecken. . 
vollumf anglich eingegliederf. 

30 

Die o.g. Architektur wird beispielhaft zur Verdeutlichung. 
herangezogen und im folgenden VPU genannt. Die. Architektur 

besteht aus beliebigen arithmetischen, logischen- (auch Spei- 

: ; 2 
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cher) und/oder Speicherzellen und/oder Vernetzungszellen 
und/oder kommunikativen/peripheren (10) Zellen (PAEs), die zu 
einer ein- oder mehrdimensionalen Matrix (PA) angeordnet sein 
konnen, wobei die Matrix unterschiedliche beliebig ausgestal- 
5 tete Zellen aufweisen kann, auch die Bussysteme werden dabei 
als Zellen verstanden. Der Matrix als ganzes oder Teilen da- 
von zugeordnet ist eine Konf igurationseinheit (CT) , die die 
Vernetzung und Funktion des PA beeinflulit. 

10 

Beschreibung der Erfindung 

Die konf igurierbaren Zellen einer VPU miissen zur korrekten 
Verarbeitung von Daten miteinander synchronisiert werden. Da- 
zu dienen zwei unterschiedliche Protokolle, eines zur Syn- 

15 chronisation des Datenverkehrs und ein weiteres zur Ablauf- 
steuerung der Datenverarbeitung'. Daten werden bevorzugt tiber 
eine Mehrzahi konf igurierbarer Bussysteme iibertragen. Konfi- 
gurierbare Bussysteme bedeutet insbesondere, dass beliebige 
PAEs Daten senden und die Verbindung zu den Empf anger -PAEs, 

20 sowie insbesondere die Empf anger -PAEs beliebig konf igurierbar 
sind. ' 

Die Synchronisation des Datenverkehrs erfolgt bevorzugt durch 
Handshake-Protokolle, die mit.den Dateji iibertragen werden. In 
25 der nachfolgeriden Beschreibung werden einfache Handshakes so- 
wie komplexe Verfahren beschrieben, deren bevorzugt e Anwen- 
dung von der jeweilig auszufuhrenden Applikation oder Appli- 
kationsmenge abhangig ist. 

30 Die Ablauf steuerung erfolgt durch Signale (Trigger) die den 
Status einer PAE anzeigen. Trigger konnen unabnangig von- den 
Daten uber frei konfigurierbare Bussysteme gefuhrt werden, 
d.h. kGnnen unterschiedliche Sender und/oder Empf anger besit- 
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zen und weisen bevorzugt ebenfalls Handshake-Protokolle auf . 
Trigger werden durch einen Status einer sendenen PAE gene- 
riert (z.B. Zero-Flag, Overflow-Flag, Negativ-Flag) , indem 
einzelne Zustande oder Kombinationen weitergeleitet werden. 

5 

Datenverarbeitende Zellen (PAEs) innerhalb einer VPU konnen 
verscheidene Verarbeitungs zustande annehmen, die vom Konfigu- 
rationszustand der Zellen und/oder eintreffenden oder einge- 
troffenen Triggern abhangen: 
10 „not configured" : 

Keine Datenverarbeitung 
„conf igurecT : 

GO aile eintreffenden Daten werden berechnet. 

STOP eintreffende Daten werden nicht berechnet. 
15 STEP genau eine Berechnung wird durchgefiihrt . 

GO, STOP und STEP werden durch int folgenden beschriebene 
Trigger ausgelost. 

20 Handshake Synchronisation 

Ein besonders einfaches und dennoch sehr leistungsfahiges 
Handshake-Protokoll, das bevorzugt bei der Obertragung von 
Daten und Triggern Anwendung findet, wird nachfolgend be- 
schrieben. Die Steuerung der Handshake-Protokolle ist bevor- 

25 zugt fest in der Hardware vorgegeben und kann einen wesentli- 
chen Bestandteil des Datehverarbeitungparadigmas einer VPU 
darstellen. Die Grundlagen dieses Protokolles sind bereits in 
• PACT 02 beschrieben. ' 
Mit jeder von einem Sender ttber einen beliebigeh Bus gesende- 

30 ten Information , wird. ein. RDY-Signal mitgesendet, das die Gal- . 
tigkeit der Information anzeigt. 
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Der Empfariger verarbeitet nur Informationen die mit einem 
RDY-Signal. versehen sind, alle anderen Informationen werden 
ignoriert. 

Sobald die Informationen vom Empf anger verarbeitet wurden und 
5 der Empfanger rteue Informationen entgegennehmen kann, zeigt 
er durch senden eines Quittierungssignales (ACK) dem Sender 
an, dafl dieser nehe Informationen absenden darf. Der Sender 
wartet immer auf das Eintreffen von ACK, bevor er erneut Da- 
ten absendet. 

10 Es wird zwischen zwei Betriebsarten unterschieden: 

a) „dependend" : Alle Eingange, die Informationen entgegenneh- 
men miissen ein gtiltiges RDY besitzen bevor die Information 
verarbeitet wird. Erst dann wird das ACK generiert. 

b) independent" : Sobald ein Eingang, der Informationen ent- 
15 gegennimmt ein gtiltiges RDY besitzt, wird fiir diesen bestimm- 

ten Eingang ein ACK generiert, sofern der Eingang Daten ent- 
gegennehmen kann, d.h. die vorhergegangenen Daten verarbeitet 
wurden; ansonsten wird auf die Verarbeitung der Daten gewar- 
tet. . 

20 Die Durchfuhrung der Synchronisation und die Steuerung der 
Datenverarbeitung kann nach dem Stand der Technik durch eine 
fest implementierte Statemachine (siehe PACT02), durch eine 
feingranular konfigurieirte Zustandsmaschihe (siehe PACT01, 
PACT04) oder vorzugs'weise durch einen .programmierbaren Se- 

25 quenzer (PACT13) erfolgen, Die programmierbare Statemachine 
wird entsprechend des auszuftihrenden Ablaufes konf iguriert . 
Der Baustein EPS.448 von Altera (ALTERA Data Book 1993) reali- 
siert beispielsweise einen derartigen programmierbaren Se- 
quenzer. 

30 

Eine besondere Aufgabe von Handshake-Protokolle fiir VPUs ist 
die Durchfuhrung einer pipeline-artigen Datenverarbeitung, 

bei welcher insbesondere in jedem Taktzyklus Daten in jeder 

L -'. ' 5 
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PAE verabeitet werden konnen. Diese Forderung fiihrt zu beson- 
deren Anspriichen an die Funktionsweise von Handshakes. Am 
Beispiel eines RDY/ACK Protokolls wird die Problemstellurig 
und Losung dieser Aufgabe aufgezeigt: 

5 

Figur la zeigt eihen Aufbau einer Pipeline innerhalb einer 
VPU. Die Daten werden iiber (vorzugsweise konf igurierbare) 
Bussysteme (0107, 0108, 0109) an Register (0101, 0104) ge- 
fuhrt, denen eihe ggf. datenverarbeitende Logik (0102, 0105) 

10 nachges.chaltet ist. Dieser ist eine Ausgabestufe (0103, 0106) 
zugeordnet, die bevorzugt wieder ein Register enthalt, um die 
Ergebnisse wieder auf einen Bus auf zuschalten. Sowohl uber 
die Bussysteme (0107, 0108, 0109) als auch durch die daten- 
verarbeitende Logik wird bevorzugt (0102, 0105) das RDY/ACK 

15 Protokoll zur Synchronisation ubertragen. 

Zwei Semantiken kommen fUr das RDY/ACK Protokoll in Frage: 

a) ACK bedeutet "Empf anger wird Daten tibernehmen", mit denv 
Effekt, dass die Pipeline in jedem Takt arbeitet. Es. entsteht 
jedoch das Problem, dass aufgrund der hardwaretechnischen 

20 Realisierung im Fall eines Pipeline-Stall das ACK asynchron 
(iber alle angehaltenen Stufeh der Pipeline lauft. Dies fuhrt 
zu erheblichen Problemen beim Zeitverhalten, insbesondere bei- 
grolJen VPUs und/oder hohen Taktf requenzen. 

b) ACK bedeutet "Empf anger hat Daten qjoemommen" , mit dem Ef- 
25 fekt, dass. das ACK immer jeweils nur bis zur nachsten Stufe 

lauft und dort ein Register vbrhanden ist. Das dadurch ent- 
stehende Problem ist, dass die Pipeline aufgrund der Verzdge- 
rung des in der hardwaretechnischen Realisierung notwendigen 
Registers nur noch in jedem. zweiten Takt arbeitet. 

30 

Die Losung der Aufgabe liegt in der. Kombinatioh beider Seman- 
tiken wie in Figur lb dargestellt , die die Stuferi 0101 bis 
0103 ausschnittsweise verdeutlicht . Auf den Bussystemen 
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(0107, 0108, 0109) wird das Protokoll b) verwendet, indent ein 
Register (0110) das eintreffende RDY mit dem Einschreiben der 
ubertragenen Daten in ein Eingangsregister urn einen Takt ver- 
zQgert und als ACK wieder auf den Bus weiterleitet . Diese 
5 Stufe (0110) arbeitet quasi als Protokollkonverter zwischen 
einem Busprotokoll und dem Protokoll innerhalb einer daten- 
verarbeitenden Logik. 

Die datenverarbeitende Logik verwendet das Protokoll a) . Die- 
ses wird erzeugt durch einen nachgeschalteten Protokollkon- 

10 verter (0111) . Das besondere an 0111 ist, dass eine Voraussa- 
ge getroffen werden muss, ob die eintref fenden Daten von der 
datenverarbeitenden Logik auch tatsachlich vom Bussystem ab- 
genommen werden.. Dies wird dadurch gelost, dass ein zusatzli- 
ches Puf ferregister (0112) in den Ausgangsstuf en (0103, 0106) 

15 .fur die auf das Bussystem zu ubertragenden Daten eingefilhrt 
wird. Die durch die datenverarbeitende, Logik generierten Da- 
ten werden zugleich an das Bussystem und in das Pufferregi- 
ster geschrieben. Kann der Bus die Daten nicht abnehmen, d.h. 
das ACK des Bussystems bleibt aus, sind die Daten im uPffer- 

20 register vorhariden und werden sobald das Bussystem bereit ist 
uber einen Multiplexer (0113) auf das Bussystem geschaltet. 
Ist das Bussystem sofort zur. Abnahme der Daten bereit, werden 
die Daten iiber Multiplexer (0113) den direkt auf den Bus wei- 
tergeleitet. Das Puf ferregister ermoglicht die Quittierung 

25 mit der Semantik a) , da so lange mit "Empfanger wird Daten 
ubernehmen" quittiert werden kann, wie das Puf ferregister 
leer ist, da durch das Einschreiben in das Puff erregister si- 
chergestellt ist, dass die Daten nicht verloren gehen. 



30 



Trigger 

In VPU Bausteinen werden zur Obertragung einfacher Informa.- 
tionen sogenannte Trigger verwendet, deren. Gruhdlagen in 
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PACT0.8 beschrieben sind. Trigger werden mittels eines in Seg- 
mente aufgeteilten ein- oder mehrdimensionalen Bussystems 
tlbertragen. Die einzelnen Segmente konnen mit Treibern zur 
Verbesserung der Signalqualitat ausgestattet sein. Die jewei- 
5 ligen Triggerverbindungen, die iiber eine Verschaltung mehrere 
Segmente realisiert wird, wird vom Anwender programmiert und 
uber die CT konf iguriert . 

Trigger iibertragen beispielsweise vor allem, jedoch nicht 
aus-schliefilich, die nachf olgenden Inf ormationen oder beliebi- 
10 ge Kombinationen dieser 

* Statusinf ormationen von Rechenwerken (ALUs), z.B. 

- Carry 

- Division by Zero . 

- Zero 

15 - Negativ 

- Under-/Overf low 

* Ergebnisse von Vergleichen und/oder Schleifen 

* n-bit Inf ormationen (fur kleine n) 

* Interruptanf orderungen, die intern oder extern gene- 
20 riert werden 

Trigger werden von beliebigen Zellen generiert und werden 
durch beliebige Ereignisse in den einzelnen Zellen angesteu- 
ert. Insbesondere kOnnen Trigger von ej.ner CT oder einer ex- 
25 ternen Einheit, die aufierhalb des Zellarrays oder des Bau- 
steines. generiert werden. 

Trigger werden von beliebigen Zellen empf angen und auf belie- 
bige Art ausgewertet. Insbesondere kSnnen Trigger von einer 
CT oder einer externen Einheit, die aufierhalb des Zellarrays 
30. oder des Bausteines ausgewertet werden. 

Trigger dienen hauptsachlich der Ablauf steuerurig innerhalb 
einer VPU, beispielsweise fur Vergleiche und/oder Sehleifen. 



f 
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Datenpfade und/oder Verzweigungen kOnnen durch Trigger frei- 
geschaltet (enabled) oder gesperrt (disabled) werden. 
Ein weiterer wesentlicher Einsatzbereich von Triggern ist das 
Synchronisieren und Ansteuern von Sequenzern, sowie deren In- 
5 ■ formationsaustausch; ebenso wie die Steuerung der Datenverar- 
beitung in den Zellen. 

Die Verwaltung von Triggern und die Steuerung der Datenverar- 
beitung kann nach dem Stand der Technik durch eine fest im- 
plementierte Statemachine (siehe PACT02, PACT08), durch eine 

10 feingranular konf igurierte Zustandsmaschine (siehe PACT01, 
PACT04, PACT08, [Chameleon]) oder vorzugsweise durch eine 
programmierbare Statemachine (PACT13) erfolgen. Die program- 
mierbare Statemachine wird entsprechend des auszufuhrenden 
Ablaufes konf iguriert . Der Baustein EPS448 von Altera [ALTERA 

15 Data Book 1993] realisiert beispielsweise einen derartigen 
programmierbaren Sequenzer. 

Grundverf ahren 

20 Die einfachen Synchronisationsverf ahren mit Rdy/Ack Protokol- 
len erschweren die Verarbeitung von komplizierten Datenstro- 
men,. da der Aufwand zur Eihhaltung der korrekten Reihenfolge 
sehr hoch ist.- Die korrekte Implementierung ist Aufgabe des 
Programmierers . Weiterhin werden zusatzliche Ressourcen fur 

25 die Implementierung benotigt. 

Im Folgenden wird ein einf aches Verfahren beschrie.ben, . das . 
diese Aufgabe lost.' 

Obertragung 1 : n 

30 Dieser Fall ist trivial: Der Sender schreibt die Daten auf 
den Bus. Die Daten liegen so lange stabil am Bus an, bis das 
ACK. als Quittierung von alien Empfangern eingetroffen ist 
(die Daten „stehen" ) . RDY wird gepulst, d.h. liegt genau fur 
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einen Takt an, damit die Daten nicht f alschlicherweise mehr- 
fach gelesen werden. Sofern das RDY implementierungsabhangig 
Multiplexer und/oder Tore und/oder weitere geeignete Obertra- 
gungselemente ansteuert, die den Datentransfer steuern, wird 

5 diese Ansteuerung fUr den Zeitraum der Dateniibertragung ge- 
speichert (RdyHold) . Dies bewirkt dass die Stellung der Tore 
und/oder Multiplexer und/oder weitere geeignete Ubertragungs- 
elemente auch nach dem RDY-Puls giiltig bleibt und damit wei- 
terhin gultige Daten auf dem Bus anliegen. 

10 Sobald ein Empf anger die Daten ilbernommen hat, quittiert er 
mittels eines ACK (vgl. PACT02) . Es soil nochmals erwahnt 
werden, dass die korrekten Daten bis zur Abnahme durch den 
oder die Empf anger auf dem Bus anliegen. ACK wird vorzugswei- 
se ebenfalls als Puis ilbertragen. Durchlauft ein ACK einen 

15 Multiplexer und/oder Tor und/oder ein weiteres geeignetes 

Obertragungselement, in welchen das RDY zuvor zur Speicherung 
der Ansteuerung diente (s. RdyHold), wird diese Ansteuerung 
nunmehr geloscht. 

Zur Obertragung von l:n ist es sinnvoll das das ACK so lange 
20 zu halten, d.h. kein gepulstes ACK zu verwenden, bis ein neu- 
es RDY eintrifft, d.h.- das ACK „steht" ebenfalls. An jedem 
Busknoten, welcher eine Verzweigung zu mehreren Empfangern 
darstellt, werden die eintref f enden ACKs miteinander verundet 
(AND) . Da die ACKs „stehen" ergibt sigh letzendlich ein „ste- 
25 hehdes w ACK beim Sender, das die ACKs aller Empfanger repra- 
sentiert'. Urn die. Lauf zeit der ACK-Kette durch die UND-Gatter 
moglichst gering zu halten, wird empf ohlen eine baumf ormige 
Busstruktur zu wShlen, bzw. wahrend des Routings des. abzuar- 
beitenden Programmes zu erzeugen. 
30 Stehende ACKs konnen nunmehr implementierungsabhangig zu dem 
Problem fuhren, dass RDY Signale geACKt Werden, filr die ei- 
gentlich kein ACK vorlag, da ein altes ACK zu lange stand. 
Eine LOsung daftir ist, ACK grundsatzlich zu pulsen und das 
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eintreffende ACK jedes Zweiges an einer Verzweigung zu spei- 
chern. Erst wenn die ACKs aller Zweige eintrafen wird ein 
ACK-Puls in Richtung Sender weitergeleitet und gleichzeitig 
alle gespeicherten ACKs (AckHold) und ggf . die RdyHold ge- 
5 16scht. 

Figur lc zeigt die Grundlagen des Verf ahrens . Ein Sender 0120 
versendt Daten ilber ein Bussystem 0121 zusammen mit einem RDY 
0122. Mehrere Empf anger (0123, 0124, 0125, 0126) erhalten die 
10 Daten und das dazugehorenden RDY (0122) . Jeder Empf anger ge- 
neriert ein ACK (0127, 0128, 0129, 0130), die jeweils ilber 
eine geeignete boolsche Logik (0131, 0132, 0133) z.B. eine 
logische UND-Funktion verkniipft und an den Sender geleitet 
werden (0134) ... 

15 

Figur lc zeigt eine mogliche bevorzugte Ausgestaltung mit 2 
Empfangern (a, b) . Eine Ausgabestufe (0103) versendet Daten 
und das zugeordnete in diesem Beispiel gepulste RDY (0131) . 
RdyHold-Stufen (0130) vor den Ziel-PAEs iibersetzen das gepul- 
20 ste RDY in ein stehendes RDY. Ein stehendes RDY soil in die- 
sem Beispiel' den boolschen Wert b'l aufweisen. Die Inhalte 
samtlicher RdyHold-Stufen werden uber- eine Kette logischer 
ODER-Funktionen ' (0133) ah 01Q3 zuruckgefuhrt . Bestatigt eine 
Ziel-PAE die Annahme d'er Daten, wird l,ediglich durch das ein- 
.25 treffende ACK (0134) die jeweils entsprechende RdyHold-Stuf e 
zuruckgesetzt . ' Die Semantik des zuriickgefiihrten Signals lau- . 
tet .somit, b'l = "irgendeine PAE hat die Daten" nicht abgenom- 
men". Sobald alle RdyHold-Stufen zuriickgesetzt sind, gelangt 
uber . die ODER-Kette (0133) die Information b'O = "alle PAEs 
30 haben die Daten- abgenommen" an 0103, was- als ACK gewertet 
wird. Die Ausgange (0i32) der RdyHold-Stufen konnen wie be- 
reits beschrieben zur Ansteuerung von Busschaltern mitverwen- 
det werden. 
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Dem letzten Eingang einer. ODER-Kette wird ein logischen b'O 
aufgeschaltet, damit die Kette ordentlich f unktioniert . 

Ubertragung n:l 

5 Dieser Fall ist vergleichsweise komplex. (Fl) Einerseits mils- 
sen mehrere Sender auf einen Empfanger gemultiplext werden, 
(F2) andererseits mufi zumeist auch die zeitliche Reihenfolge 
der Senduhgen eingehalten werden. Nachfolgend werden mehrere 
Verfahren zur Losung der Aufgabe beschrieben. Es soil darauf 

10 hingewiesen werden, . .daJi kein Verfahren gfundsatzlich zu be- 
■ vorzugen ist. Vielmehr ist je nach System und auszufxihrenden ■ 
Algorithmen das jeweils aus Sicht der Programmierbarkeit, des 
Auf wands und der Kosten am besten Geeignete zu wahlten. 

15 Eine einfache n:l Obertragung kann dadurch realisiert werden, 
dass. jeweils mehrere Datenpfade auf die Eingange von PAEs ge- 
filhrt werden. Die PAEs werden als Multiplexerstuf en konfigu- 
riert. Eingehende Trigger steuern den Multiplexer und selek- 
tieren jeweils einen der Mehrzahl von Datenpfaden. Sofern er- 

20. forderlich, konnen Baumstrukturen aus als Multiplexer konfi- 
gurierten PAEs auf gebaut werden um eine Vielzahl von Dateh- 
• strbme (grosse n)' zusammenzuf tihren. Das Verfahren erfordet 
die besondere Aufmerksamkeit ' des Programmierers • xlm die unter- 
schiedlichen Datenstfome zeitlich korr.ekt zu sortieren. Ins- 

25 besondere sollten alle Datenpfade dieselbe Lange und/oder 

Verzogefung aufweisen, . um die korrekte Reihenfolge der Daten 
zu . gewahrleisten. 

Leistungsf ahigere Zusammenfuhrungsmethoden werden nachfolgend 
30 beschieben:. 

Da Fl z'unachst .trivial durch einen beliebigen Arbiter mit 
nachgeschaltetem Multiplexer losbar scheint, soil die Oberle- ' 
gung mit F2 be'gdnnen werden. ' 



WO 02/071249 PCT/EP02/02403 

Die Einhaltung der zeitlichen Reihenfolge ist mit einfachen 
Arbitern nicht moglich. Figur 2 zeigt ein erstes mogliches 
Implementierungbeispiel . Ein FIFO (0206) wird verwendet, um 

5 die zeitliche Reihenfolgen von Obertragungsanf orderungen auf 
ein Bussystem (0208) korrekt abzulegen und abzuarbeiten. 
Hierzu wird jedem Sender (0201, 0202, 0203, 0204) eine ein- 
deutige Nummer zugeordnet, die seine Adresse darstellt. Jeder 
Sender fordert eine Dateniibertragung auf das Bussystem 0208 

10 an, indem er seine Adresse auf einem Bus (0209, 0210, 0211, 
0212) anzeigt. Die jeweiligen Adressen werden iiber einen Mul- 
tiplexer (0205) in einem FIFO (0206) entsprechend der Reihen- 
folge der Sendeanf orderungen gespeichert. Das FIFO wird 
schrittweise abgearbeitet und. die Adresse des jeweiligen FI- 

15 FO-Eintrages wird auf einem weiteren Bus (0207) angezeigt. 
Dieser Bus adressiert die Sender und. der Sender mit der ent- 
sprechenden passenden Adresse erhalt den Zugriff auf den Bus 
0208. Fur ein derartiges verfahren kOnnen beispielsweise die 
internen Speicher der VPU Technologie als FIFO verwendet wer- 

20 den (vgl. PACT04, PACT 13) . 

BeinSherer Betrachtung entsteht jedoch. folgendes Problem: 
Sobald mehrer Sender gleichzeitig auf den Bus zugreifen wol- 
len, muJi ein Sender .ausgewahlt werden,,, dessen Adresse dann in 

25 das FIFO gespeichert wird. Im nachsten Takt wird dann der 
•nachste Sender, ausgewahlt, usw.. Die Auswahl kann durch einen 
Arbiter (0205) erfoigen. Dadurch wird die Gleichzeitigkeit . 
aiifgelost,. was- jedoch zumeist kein Problem darstellt. Fur. 
Realtime-Anwendungen konnte ein priorisierender Arbiter ver- 

30 wendet werden. Das Verfahren scheitert jedoch an einer einfa- 
chen Oberlegung: ' Zum Zeitpunkt t fordern drei Sender S1,S2 
und S3 den Empf anger. E an. Bei t wird SI, bei t+1 wird S2 und 
bei t+2 wird S3 ••gespeichert. Bei t+1 fordert jedoch S4 und 

: : ... 13 • 
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S5, bei t+2 zusatzlich S6 und wieder SI den Empf anger an. Da 
nun neue Anf orderungen mit Alten tiberlappen, wird die Abar- 
beitung sehr schnell aufierst komplex und erfordert einen er- 
heblichen zusatzlichen Hardwareaufwand. 

Somit ist das in Figur 2 beschriebene Verfahren bevorzugt fiir 
einfache n:l Ubergange die nach Moglichkeit keine gleichzei- 
tigen Busanf orderungen aufweisen anzuwenden. 

Nach dieser Oberlegung scheint es sinnvoll nicht einen Sender 
je Takt zu speichern, sondern die Menge aller Sender, die zu 
einem bestimmten Takt' die Ubertragung anf brdern .' 'Zum jeweils 
darauf folgenden Takt wird dann die jeweils neue Menge gespei- 
chert. Sofern mehrere Sender zum gleichen Takt die Ubertra- 
gung anfordern, werden diese bei der Abarbeitung. des Spei- 
chers arbitriert. 

Das Speichern mehrerer Senderadressen zugleich ist jedoch 
ebenfalls sehr aufwendig. Eine einfache Realisierung wird 
durch folgende Ausfuhrung in. Figur 3 erreicht: 

• Ein zusatzlicher Zahler (REQCNT, 0301) zahlt die .Zahl 
der Takte. T. Jeder Sender (0201, 0202, 0203, 0204), der 
beim Takt t die Ubertragung anfordert, speichert den 
Wert von REQCNT (REQCNT (t) ) beim. Takt t als • seine Adres- 
se. 

• Jeder Sender, der beim Takt t+1 die Ubertragung anf or- 
dert speichert, den Wert von REQCNT (REQCNT (t+1) ) beim 

. Takt t+1 als seine Adres.se. 

• Jeder Sender, der beim Takt t+n die. Ubertragung anfor- 
dert speichert, den Wert von REQCNT (REQCNT (t+n) ) beim 
Takt t+n als seine Adresse. ' . 
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Das FIFO (0206) speichert nunmehr die Werte von REQCNT(tb) 
bei einem bestimmten Takt tb. 

Das FIFO zeigt einen gespeicherten Wert von REQCNT als Sende-' 
aufforderung auf einera separaten Bus (0207) an. Jeder Sender 

5 vergleicht diesen Wert mit dem von ihm gespeicherten. Sind 
die Werte gleich sendet er die Daten. Besitzen mehrere Sender 
denselben Wert, d.h. wollen gleichzeitig Daten ilbertragen, so 
wird die Obertragung jetzt mittels eines geeigneten Arbiters 
(CHNARB, 0302b) arbitriert und mittels eines durch den.Arbi- 

10 ter angesteuerten Multiplexers (0302a) auf den Bus geschal- 
tet. Eine beispielsweise mogliche Ausgestaltung des Arbiters 
wird nachfolgend beschrieben. 

Sobald keine Sender mehr auf einen REQCNT Wert ansprechen, 
d.h. dem Arbiter liegen keine Busanforderungen zur Arbitrie- 
15 rung mehr vor (0303) , schaltet das FIFO zum nachsten Wert 
weiter. Beinhaltet das FIFO keine giiltigen Eintrage mehr 
(empty) , werden die Werte als ungiiltig gekennzeichnet, damit 
keine falschlichen Buszugriffe entstehen. 

In einer bevorzugten Ausgestaltung werden nur die Werte. von 
20 REQCNT in den FIFO (0206) gespeichert bei denen eine Bus an - 

forderung eines Senders (0201, 0202, 0203, 0204) vorlag. Dazu . 

signalisiert jeder Sender seine Busanf orderung (0310, .0311, 

0312, 0313). Dieser werden logisch verkniipft (0314), z.B. 

durch eine ODER-Funktion. Die entstehende Sendeanf orderung 
25 aller Sender (0315) auf ein Tor (0316) gefiihrt, das nur die 

Werte von REQCNT an das FIFO (0206) leitet, an bei. denen tat- 

sachlich eine Busanf orderung vorlag; 

Das beschriebene . Verf ahren kann ein einer bevorzugten Ausftih- 

30 rung entsprechend Figur 4 wie folgt Weiter optimiert werden: 

Durch REQCNT (0410) wird eine lineafe Folge von Werten 

(REQCNT ( tb ) ) generiert, wenn; statt aller Takte t nur die Tak- 

te gezahlt werden, in denen eine Busanf orderung eines Senders 
.. . : -.15 
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(0315) existiert. Durch die von REQCNT generierte nun lucken- 
lose lineare Folge von Werten ist das FIFO durch einen einfa- 
chen Zahler (SNDCNT, 0402) ersetzbar, der ebenfalls linear 
zahlt und dessen Wert (0403) entsprechend 0207 die jeweiligen 
5 Sender freischaltet . Dabei zahlt SNDCNT weiter sobald kein 
Sender mehr auf den Wert von SNDCNT reagiert. Sobald der Wert 
von REQCNT gleich dem Wert von SNDCNT ist, zahlt SNDCNT nicht 
mehr weiter, da der letzte Wert erreicht ist. 

10 Far samtliche Implement ierungsart en gilt, daJi die maximal er- 
forderliche Breite von REQCNT gleich log 2 (An'zahl_der_Sender) . 
ist. Bei Oberschreiten des groiitmoglichen Wertes beginnt 
REQCNT und SNDCNT wieder beim- minimalen Wert (fur gewohnlich. 
0) . 

15 

Arbiter 

Eine Vielzahl von Arbitern sind nach dem Stand der Technik 
als CHNARB einsetzbar. Je nach Anwendung eignen sich besser 
priorisierte Oder unpriorisierte Arbiter, .wobei priorisierte 

20 den Vorteil bieten, daJJ sie bei Realtime-Auf gaben bestimmte 
Tasks bevorzugen kohnen. 
- Im folgenden wird ein serieller Arbiter beschrieben, • der in 
der VPU-Technologie besonders einfach und resourcensparend 
implementierbar ist. Zudem bietet der Arbiter den Vorteil 

25 priorisierend zu arbeiten r wodurch die bevorzugte Bearbeitung 
bestimmter Ubertragungen ermoglicht wird. 

Zunachst wird ein moglicher Grundaufbau eines Bussystems in 
Figur 5 beschrieben. Bausteine der Gattung VPU besitzen ein 
. 30 Netzwerk aus parallelen Dat en-Bus systemen. . (0502) , wobei j'ede 
PAE zur Datenubertragung mindestens Anschluli' an einen. Daten- 
bus besitzt. Fur gewohnlich . ist ein Netzwerk. aus mehreren 
gleichwertigen parallelen Datenbussen (0502) auf gebaut, wobei 
"i 16 
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je ein Datenbus fur eine Dateniibertragung konfiguriert sein 
kann. Die verbleibenden Datenbus se konnen fur andere Daten- 
ubertragungen zur freien Verfugung stehen. 

5 Es soli weiterhin erwahnt werden, dali die Datenbusse segmen- 
tierbar sein kOnnen, d.h. durch Konf iguration (0521) kann ein 
Bussegment (0502) iiber Tore (G) auf das benachbarte Busseg- 
ment (0522) durchgeschaltet werden. Die Tore (G) kSnnen aus 
Transmission-Gates- aufgebaut sein und bevorzugt Signalver- 

10 starker und/oder Register aufweisen. 

Eine PAE (0501) greift vorzugsweise iiber Multiplexer • (0503) 

oder eine vergleichbare Schaltung Daten von einem der Busse 
(0502) ab. Die Freischaltung der Multiplexeranordung ist kon- 
15 figurierbar (0504) . 

Bevorzugt werden die von einer PAE. (0510) generierten Daten 
(Ergebnisse) iiber eine ahnliche unabhangig konf igurierbare • 
(0505) Multiplexer-Schaltung auf einen Bus (0502) aufgeschal- 

tet . 

20 Die in Figur 5 beschriebene Schaltung wird mit Busknoteri be- 
zeichnet.. 

Ein eihfacher Arbiter fur einen Bus knot en kann' f.Olgenderma- 
ssen, wie in Figur 6 dargestellt, implement iert sein: 

25 Durch zwei AND-Gatter (0601, 0602) kann das Grundelement 0610 
eines einfacheh seriellen Arbiters aufgebaut werden .Figur 6a. 
Das Grundelement besitzt einen Eingang (RDY, 0603) durch den 
ein Eingangsbus anzeigt, dass er Date.n iibertragt und eine 
Freischaltung auf den Empfangerbus anfordert. Ein weiterer 

30. Eingang (ACTIVATE, 0604) der in diesem Beispiel . durch einen 
logischen 1-Pegel anzeigt, dali keines der vqrhergehenden 
Grundelemente aktuell den Bus arbitriert hat und somit eine 
Arbitrierung durch dieses Grundelement zulassig ist. • Der Aus- 
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gang RDY_OUT {0605) zeigt beispielsweise einem nachgeschalte- 
ten Busknoten an, dafl das Grundelement den Buszugriff frei- 
schaltet (wenn eine Busanforderung (RDY) besteht) und ACTIVA- 
TE OUT (0606) zeigt an, daJi das Grundelement aktuell keine 
5 Freischaltung (mehr) durchfiihrt, da keine Busanforderung 
(RDY) (mehr) besteht und/oder keine vorherige Arbiterstufe 
den Empfangerbus (ACTIVE) belegt hat. 

Durch die serielle Verkettung entsprechend Figur 6b von ACTI- 
10 VATE und ACTIVATE_OUT iiber die Grundelemente 0610 entsteht 
ein serieller priorisierender Arbiter, "wobei das erste Grun- 
delement die hSchste Prioritat besitzt und dessen ACTIVATE 
Eingang immer aktiviert ist. 

15 Durch das bereits beschriebene Protokoll ist sichergestellt, 
daJi innerhalb desselben SNDCNT-Wertes jede PAE nur eine Da- 
teniibertragung durchfiihrt, da eine nachfolgende Dateniibertra- 
gung einen anderen SDNCNT-Wert besitzen wiirde. Diese Bedin- 
gung ist fur eine storungsf reie Funktion der seriellen Arbi— 

20 . ters erforderlich, da damit die fur die Priorisierung notwen- 
dige Abarbeitungsreihe'nf olge der Freischaltungsanforderungen 
(RDY) gewahrleistet wird-. Mit anderen Worten, kann eine Frei 
gabeanf orderung (RDY) nicht wShrend einer Arbitriefung nach- 
traglich an Grundelementen auftreten, ,,die bereits durch ACT I 

25 VATE_OUT anzeigen, dali sie keine Freischaltung eines Buszu- 
griff s ermoglichen. 

Lokalitat und Lauf zeit 

. 30. Grundsatzlich ist das Verfahren iiber lan'ge Strecken hinweg 

einsetzbar. Ab einer von der Systemf requeriz ahhangigen Lange 
ist die Ubertragung der Daten und Ausfuhrung des Protokolls 

nicht mehr in einem Takt mSglich. 

. - ; 18 
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Eine L5sung ist die Datenpfade exakt gleich lang auszulegen 
und die Zusammenfuhrung an genau einer Stelle durchzufuhren. 
Damit sind samtliche Steuersignale fiir das Protokoll lokal, 
wodurch eine Erhohung der Systemf requenz mSglich wird. Zum 
5 Ausbalancieren der Datenpfade bieten sich FIFO-Stufen an, die 
als Verzogerungsstufen (delayline) mit konf igurierbarer Ver- 
zogerund arbeiten, die nachfolgend genauer beschrieben wer- 
den. 

Eine weitaus optimalere Losung, bei der auch Datenpfade baum- 
10 formig zusammengefuhrt werden kSnnen, ist wie folgt aufbau- 
bar : 

. Abqewandeltes Protokoll, Timestamp 
Vorbedingung ist, dafi ein Datenpfad in mehrere Zweige aufge- 

15 trennt und spater wieder zusammengefuhrt wird. Dies geschieht 
gewOhnlicherweise bei Verzweigungen wie bei den Programmier- 
konstrukten-. ,,1^- oder „CASE W . In Figur 7a ist ein CASE- 
ahnliches Konstrukt beispielhaft dargestellt. 
Spatestens der letzten PAE vor einer Verzweigung (0701) wird 

20 ein REQCNT (0702) zugeordnet, der jedem Datenwort einen Wert 
(Timestamp) zuweist, der im weiteren immer zusammen mit dem 
Datenwort Ubertragen wird. . REGCNT zahlt linear mit jedem Da- 
tenwort weiter, sodass durch einen eindeuti.gen Wert die Posi- 
tion eines Datenwortes . innerhalb eines> Datenstroms bestimmbar 

25 ist. Die Datenworte verzweigen sich nachfolgend in mehrere 
unterschiedliche Datenpfade (0703,. 0704, 0705) . Mit jedem Da- 
tenwort wird der ihm zugeordheten Wert (Timestamp) durch die 
Datenpfade geleitet. 

Vor der./den PAE (0708) die den zusammengefuhrt en Datenpfad 
30 weiterverarbeiten, softiert ein Multiplexer (0707) die Daten- 
worte wieder in die richtige Reihenfolge. Dazu ist . dem Multi- 
plexer ein linear zahlender SNDCNT (0706) zugeordnet. Der 
Wert (Timestamp) der jedem Datenwort zugewiesen wurde, wird 
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mit dem Wert von SNDCNT verglichen. Das jeweils passende Da- 
tenwort wird durch den Multiplexer selektiert. PaJit zu einem 
.bestimmten Zeitpunkt kein Datenwort, wird keine Selektion 
durchgef uhrt . SNDCNT zahlt nur dann weiter, wenn ein passen- 
5 des Datenwort selektiert wurde. 

Um eine moglichst hohe Taktfrequenz zu erreichen ist dabei 
die Zusairanenftihrung der Datenpfade sehr lokal durchzufuhren. 
Damit werden die Leitungslangen minimiert und die damit ver- 
bundenen Laufzeiten gering gehalten. 

10 Gegebenenfalls sind die Langen der Datenpfade durch Register- 
stufen (Pipelines) auszugleichen, bis samtliche Datenpfade an 
einem gemeinsamen Punkt zusammengefuhrt werden konnen. Dabei 
sollte darauf geachtet werden, dad die Langen der Pipelines 
in etwa gleich sind, um keine allzu groJben Zeitverschiebungen 

15 zwischen den Datenworten zu erhalten. 

Verwendung der Timestamp zum Multiplexen 

Der Ausgang einer PAE (PAE-S) wird an mehrere PAE (PAE-E) 
20- weitergeleitet . Nur eine der PAEs soil die Daten je Taktzy- 
klus verarbeiten. Die PAE-E h'aben eine jeweils unterschiedli- 
che. fest korif igurierte Adresse, die. jeweils mit dem 
TimeStamp-Bus verglichen wird. Die PAE-S selektiert die emp- 
fangende PAE dadurch, daJi sie die Adresse der empfangenden 
25 PAE auf den TimeStamp Bus ausgibt. Dadurch wird die PAE 
adressiert, fUr die die Daten jeweils bestimmt ist. 

Spekulativo Ausfuhrung und Task-Switch 

30 Von klassischen Mikroprozessoren. ist das Problem der spekula- 
tiven Ausfiihrung bekanrit. Dieses tritt auf, wenn die Verar- 
beitung von Daten von einem Ergebnis- der vorhergehenden Da- 
tenverarbeitung abhangig ist; aber jedoch mit der Verarbei- 
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tung der abhangigen Daten aus Performance-Qriinden jedoch 
schon vorab - ohne dali das erforderliche Ergebnis vorliegt - 
begonnen wird. 1st das Ergebnis ein anderes als vorab ange- 
nommen, muli die Verarbeitung der auf fehlerhaften Annahmen 
5 basierenden Daten neu durchgefuhrt werden (Fehlspekulation) . 
Generell kann dies auch in VPUs auftreten. 

Durch Umsortierung und ahnliche Verfahren kann dieses Problem 
minimiert werden, wobei jedoch dessen Auftreten niemals aus- 
geschlossen werden kann. 

10 

Ein ahnliches Problem liegt dann vor, wenn durch eine, der 
Datenverarbeitung in einerhalb des PAs tibergeordnete, Einheit 
(z.B. der Task-Scheduler eines Betriebssystem, Echtzeitanf or w 
derung, usw.) die Datenverarbeitung abbricht, bevor diese 
15 vollstandig ausgefilhrt wurde. In diesem Fall muJi der Zustand 
der Pipeline derart gesichert werden, dali die Datenverarbei- 
tung wieder nach der S telle der Operanden begirtnt, die zur 
Berechnung des letzen fertigen Ergebnisses gefuhrt haben. 

20 Innerhalb einer Pipeline treten zwei relevante Zustande auf: 
RD Am Beginn einer Pipeline wird angezeigt, dali neue Daten 
angenommen Oder angefordert werden. 
. DONE Am Ende einer Pipeline wird die korrekte Verarbeitung 
von Daten angezeigt, bei dehen keine Fehlspekulation auftrat. 

25 Weiterhin kann der Zustand MISS_PREDICT verwendet werden, der 
anzeigt, dali eine Fehlspekulation auftrat. Hilfsweise kann 
dieser. Zustand auch durch eine Negierung des Zustandes DONE 
zu geeignetem Zeitpunkt generiert- werden. 

.30 

Spezielle. FIFOs 

Aus PACT04 und PACT13 sind. Verfahren bekannt, bei welchen Da- 
ten in Speichern .gehalten werden und aus diesen zur Verarbei- 
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tung ausgelesen werden, bzw. Ergebnisse in_.diese abgelegt 
werden. Dazu konnen mehrere unabhangige Speicher verwendet 
werden. Die Speicher konnen in unterschiedlichen Betriebsar- 
ten arbeiten, insbesondere kann ein wahlfreier Z'ugriff, ein 
5 Stack- oder FIFO-Betriebsmodus verwendet werden. 

Daten werden in VPUs fur gewohnlich linear verarbeitet, so- 
dass der FIFO-Betriebsmodus haufig bevorzugt zum Einsatz 
kommt. Es soli beispielhaft eine besondere Erweiterung der 
Speicher fur den FIFO Betriebsmodus vorgestellt werden, der 
■ 10 Spekulation direkt unterstiitzt und im Fall einer Fehlspekula- 
tion die wiederholte' Verarbeitung der f ehlspekulierten Daten 
ermoglicht. . Desweiteren unterstiitzt der FIFO Taskswitches zu 
beliebigen Zeitpunkten. 

15 Zunachst wird der erweiterte FIFO Betriebsmodi am Beispiel 
eihes Speichers ausgefiihrt, auf den im Rahmen einer bestimm- 
ten Datenverarbeitung lesend (Leseseite) zugegriffen wird. 
Der beispielhafte FIFO ist in Figur 8 dargestellt. 
Der Aufbau der Schreibschaltung entspricht mit einem gewohn- 

20 lichen Schreibzeiger (WRJPTR, 0801) dabei dem Stand der Tech- 
nik, der sich mit jedeiti Schreibzugrif f (0810) weiterbewegt'. 
. Die Leseschaltung besitzt ..z .B. den ublichen Zahler (RD_PTR, 
0802)., der entsprechend eines Lesesignals (0811) jedes gele- ' 
sene Wort zahlt und entsprechend die Leseadresse des Spei- 

25 chers (0803) modifiziert . Neu gegenuber dem Stand der Technik 
ist eine zusatzliche Schaltung DONE_PTR (0804), die ni'cht die 
ausgelesenen Daten dokumentiert ,. sondern die ausgelesenen und 
korrekt verarbeiteten, mit anderen Wort en also nur die Daten 
bei denen kein Fehler auftrat und deren Ergebnis am Ende der 
. 30 Berechnung ausgegeben und das korrekte Berechnungsende ein 
Signal (0812) angezeigt wurde. MSgliche Schaltungen werden 
nachfolgend beschrieben. 

22 
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Das FULL-Flag (0805) (nach den Stand der Technik) , das an- 
zeigt, dafi der FIFO voll ist und keine weiteren Daten mehr 
gespeichert werden konnen, wird nunmehr duxch einen Vergleich 
(0806) von DONE_PTR mit WR_WTR generiert. Dadurch wird si- 
5 chergestellt, dass Daten, auf die bedingt durch eine mogliche 
Fehlspekulation ein Riickgriff notwendig wird, nicht iiber- 
schrieben werden. 

Das EMPTY-Flag (0807) wird entsprechend dem iiblichen Aufbau 
durch Vergleich (0808) des RD_PRT mit dem WR_P.TR generiert. 
10 Trat eine Fehlspekulation (MISS_PREDICT, 0809) auf, wird der 
Lesezeiger mit dem Wert DONE_PTR + 1 geladen. Damit wird die 
Datenverarbeitung wieder bei dem Wert begonnen, der eine 
Fehlspekulation ausldste. 

Zwei mogliche Ausgestaltungen des D0NE_PTR sollen beispiel- 
15 haft genauers ausgefiihrt werden: 

a) Implement ierung durch einen Zahler. 

DONE_PTR ist als Zahler implement iert, der bei einem Reset 
der Schaltung oder zu Beginn einer Datenverarbeitung gleich 
dem RD_PTR gesetzt wird. Durch ein eingehendes Signal (DONE) 
20 wird angezeigt, dali die Daten erfolgreich, d.h. ohne Fehlspe- 
kulation verarbeitet Wurden. Dadurch wird D0NE_PRT derart mo- 
difiziert, dafi er auf. das nachste'. sich in Verarbeit'ung befin- 
dende Datenwort zeigt. 

b) . Implementierung durch einen Subtrahierer 

25 Sofern die Lange der datehverarbeitenden Pipeline immer exakt 
bekannt ist und sichergestellt ist, dali die Lange konstant 
ist' (also keine Verzweigung in. unterschiedlich lange Pipeli- 
nes stattfindet) , kann ein Subtrahierer eingesetzt werden. In 
einem zugeordneten Register wird die Lange der Pipeline vom 
. 30 Ahschlufi des. Speichers bis zum Erkennen einer moglichen Fehl- 
spekulation gespeichert. Dadurch mull die Datenverarbeitung 
nach einer Fehlspekulation bei dem Datenwort wieder aufge- 
setzt werden, das durch die Differenz berechnet werden kann. 
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Auf der Schreibseite, um das Ergebnis der Datenverarbeitung 
.einer Konf iguration zu sichern, ist ein entsprechend ausge- 
stalteter Speicher erf orderlich, wobei die Funktion des DO- 
5 NE_PRT fiir den Schreibzeiger implementiert ist, um bereits 
(fehl-)berechnete Ergebnisse bei einem erneuten Durchlauf der 
Datenverarbeitung wieder zu iiberschreiben. Mit anderen Worten 
ist die Funktion des Schreib-/Lesezeigers entsprechend der in 
der Zeichnung geklammerten Adressen vertauscht. 

10 

Wird die' Verarbeitung der Daten von einer anderen Quelle un- 
terbrochen (z.B. Taskswitch eines Betriebssystems) ist es 
hinreichend den DONE_PTR zu sichern und die Datenverarbeitung 
zu einem spateren Zeitpunkt bei DONE._PTR + 1 wieder aufzuset- 
15 zen. 

FIFOs fur Input/Output- Stuf en, z.B. 0101, 0103 

Zum Ausbalancieren von Datenpf aden und/oder ZustSnden unter- 
20 schiedlicher Kanten eines Graphen, bzw. unterschiedlicher' 
Zweige der ■ Datenverarbeitung (Trigger, vgl. PACT 08 , PACT13) 
ist es sihnvoll ' konf igurierbare FIFOs an den Ausgangen Oder 
Eingangen der PAEs einzusetzen. Die FIFOs besitzen einstell- 
bare latenzzeiten, sodass die VerzQgerung unterschiedlicher 
25 Kanten/ Zweige, also die Laufzeit von Daten iiber unterschied- 
liche aber zumeist parallele Datenpf ade, aufeinander abge- 
stimmt werden kahn. 

Da es innerhalb einer VPU zumAnhalten einer Pipeline auf- 
grund -ausstehender Daten oder eines ausstehenden Triggers. 
. 30 kommen kann,' sind die FIEOs ebenfalls zum Ausgleichen derar- 
tiger Verz6gerungen sinnvoll. Die nachfolgend beschriebenen 
FIFOs losen beide Aufgaben: 



WO 02/071249 PCT/EP02/02403 

Eine FIFO-Stufe kann beispielsweise wie in_ Figur 9 darge- 
stellt f olgendermassen aufgebaut sein: Einem Register (0901) 
ist ein. Multiplexer (0902) nachgeschaltet . Das Register spei- 
chert die Daten (0903) und auch deren korrekte Existenz, d.h. 

5 das dazugehorende RDY (0904) . Das Einschreiben in das Regi- 
ster erfolgt genau dann, wenn die benachbarte FIFO-Stufe, die 
naher zum Ausgang (0920) des FIFOs liegt anzeigt, dass sie 
voll ist (0905) und ein RDY (0904) fur die Daten anliegt. Der 
Multiplexer leitet Eingehende Daten (0903) so lange direkt 

10 auf den Ausgang weiter (0906), bis Daten in das Register ge- 
schrieben wurden und die FIFO-Stufe damit selbst voll ist, 
was der benachbarten FIFO-Stufe, die naher zum Eingang. (.0921) 
des FIFOs liegt angezeigt wird (0907) . Die Annahme von Daten 
in einer FIFO-Stufe wird mit einem Input -Ac know ledge (IACK, 

15 0908) bestatigt. Die Abnahme von Daten aus einem FIFO wird 
durch Output -Acknowledge (OACK, 0909) bestatigt. OACK gelangt 
zugleich an alle FIFO-Stufen und bewirkt das weiters.chieben 
der Daten im FIFO urn jeweils eine Stufe. 

20 Einzelne ■ FIFO-Stufen k5nnen zum Aufbau beliebig langer FIFOs 
' kaskadiert werden Figur 9a. Dazu werden alle IACK-Ausgange 
logisch miteinander verknupft, beispielsweise durch' eine 
ODER-Funktion (0910) . 

25 Die Funktionsweise wird am Beispiel von Figur 10a, b erlau-. 
tert: 

Hinzufvigen eines D'atenwortes 

Ein neues Datenwort wird uber die Multiplexer der einzelnen 

.30 .FIFO-Stufen an den Registern vorbeigeleitet . Die erste voile 

FIFO-Stufe (1001) signalisiert' der davorliegenden Stufe 

(1002) anhand des gespeicherten RDY, dali .sie keine Daten an- 

nehmen kann. Die davorliegende Stufe (1002) hat kein RDY ge- 

25 
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speichert, kennt aber den "Voll"-Zustand der Nachfolgenden 
(1001) . Daher speichert die Stufe die Daten und das RDY 
(1003); und quittiert die Speicherung durch ein ACK an den 
Sender. Der Multiplexer (1004) der FIFO-Stufe schaltet dabei 
5 derart um, dass er nicht mehr den Datenpfad an die nachfol- 
gende Stufe weiterleitet, sondern den Inhalt des Registers. 

Entfernen eines Datenwortes 

10 Geht ein ACK (1011) bei der letzten FIFO-Stufe ein, werden 
die Daten jeder vorhergehenden Stufe an die jeweils Nachfol- 
gende ubertragen (1010) . Dies geschieht durch Anlegen eines 
gldbalen Schreibtaktes an jede Stufe. Da samtliche Multiple- 
xer bereits entsprechend der Registerbelegung gestellt sind, 

15 rutschen somit alle Daten im FIFO um eine Zeile nach unten. 



Entfernen und gleichzeitiges Hinzufiigen eines Datenwortes 
Liegt der globale. Schreibtakt an, wird in der ersten freien 

20 Stufe kein Datenwort gespeichert. Da der Multiplexer dieser 
Stufe die Daten noch an die Nachfolgende weiterleitet, spei- 
chert die erste voile Stufe (1012) die Daten. Deren Daten 
werden wie zuvor beschrieberi im selben Takt von der nachfol- 
genden Stufe gespeichert. Mit anderern> Wort en: Neu einzu- 

25 schreibenden. Daten rutschen automatisch in die nunmehr erste 
• freie FIFO-Stufe • (1012) , d.'h. die vormals letzte voile FIFO- 
Stufe, die, durch eintref fen von ACK geleert wurde, nach. 

. . 30 Konfiguirierbare Pipeline 

Es kann fur bestimmte Anwendungen von Vorteil sein, mittels 
eines . Schalters (0930). in. den beispielhaft in Figur 9 gezeig- 
ten FIFO-Stufe einzelne Multiplexer des FIFOs derart zu 
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schalten, daJi grundsatzlich das entsprechende Register einge- 
schaltet ist. Damit ist eine feste Latenz- bzw. Verziigerungs- 
zeit bei der Datenubertragung einstellbar iiber den Schalter 
konf igurierbar . 

5 

Zusammenfuhren von Da tens tr omen (mergen) 

Zum Zusammenfuhren der Datenstrome stehen insgesamt 3 Verfah- 
ren zur Verfiigung, die je nach Anwendung unterschiedlich gut 
10 geeignet sind: 

a) Local Merge 

b) Tree Merge 

c) Memory Merge 

15 

Lokales Zusammenfuhren (Local Merge) 

Die einfachste Variante ist. der local merge. Dabei werden al- 
le Datenstrome bevorzugt an einem einzigen Punkt Oder ver- 
gleichsweise lokal zusammengefuhrt und gegebenenf alls sofort 

20 wieder aufgetrennt. Eiri lokaler SNDCNT. selektiert uber einen 
Multiplexer genau das Datenwort, das dessen Timestamp dem 
Wert von SNDCNT eritspricht unddaher. aktuell' erwartet wird. 
Zwei MSglichkeiten sollen arihand der Figuren 7a und 7b nahers 
erlautert werden: 

25 a) Ein Zahler SNDCNT .(0.706) zahlt bei jedem.eintreffenden Da- 
tenpakef weiter: Je Datenpfad ist ein Vergleicher nachge- 
schaltet^ der den Zahlerstand jeweils mit der Timestamp des 
Datenp'fades ver.gleicht. Stimmen die. Werte iiberein, wird das 
aktuelle Datenpaket iiber den Multiplexer an die nachf olgenden 
. 30 PAEs weitergeleitet . 

b) Die Losung nach a)- wird derart erweitert, dafi nach der 
Auswahl des. jeweils aktiven- Datenpfades als Herkunftsdaten- 

pfad diesem beispielsweise mittels einer bevorzugt iiber ein 
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(jbersetzungsverfahren, z.B. eine CT konf igurierbaren Lookup- 
Tabelle (0710) , ein Zieldatenpfad zugeordnet wird. Der Her- 
kunftsdatenpfad wird ermittelt indem die mit den Daten ein- 
treffenden Timestamp entsprechend Verfahren a) mit einem 

5 SNDCNT (0711) verglichen (0712) werden und der tibereinstim- 
mende Datenpfad adressiert (0714) und uber einen Multiplexer 
(0713) selektiert wird. Die Adresse (0714) wird mittels der 
beispielhaften Lookup-Tabelle (0710) einer Zieldatenpf ada- 
dresse (0715) zugeordnet die uber einen Demultiplexer (0716) 

10 den Zielpfad auswahlt. Sofern die beschriebene Struktur in 
Busknoten ahnlich Figur implementiert ist, kann uber die bei- 
spielhafte Lookup-Tabelle (0710) die Datenverbindung auch der 
dem Busknoten zugeordnete PAE (0718) aufgebaut werden, bei- 
spielsweise iiber eine Tor-Funktion (Transmission-Gates) 

15 (0717) zum Eingang der PAE. 

Ein besonders leistungsfahiges. Schaltungsbeispiel ist in Fi- 
gur 7c dargestellt. Eine PAE (0720) besitzt 3 Dateneingange 
(A,B,C), wie beispielsweise in der XPU128ES . Bussysteme . 

20 (0733) konnen konf igurierbare und/oder multiplexbar und je 
Taktzyklus selektierba'r auf die Dateneingange auf geschaltet 
•werden. Jedes Bussystem ubertragt Daten, Handshakes und die 
zugeordnete Timestamp (0721). Die Eingange A und C der PAE. 
(0720) werden dazu verwendet, die Timestamp der Datenkanale 

25 an die PAE weiterzuleiten (0722, 0723). Die einzelnen 

Timestamp kOnnen beispielsweise durch das nachfplgend be- 
schriebene SIMD-Bussystem gebiindelt werden. Die gebiindelten 
Timestamp werden in der PAE wieder aufgetrennt und jede 
Timestamp je einzeln (0725, 0726, 0727.) mit einem in der PAE 
.30 realisierten/konfigurierten SNDCNT. (0724) verglichen (0728). 
Die Ergebnisse der Vergleiche werden verwendet um die Ein- 
gangsmultiplexer (0.730) derart anzusteuern, dass das Bussy- 
stem mit der korrekten Timestamp auf eine- Sammelschiene 

28 
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(0731) durchgeschaltet wird. Die Sammelschiene ist bevorzugt 
mit dem Eingang B verbunden, urn eine Datenweiterleitung an 
die PAE entsprechend 0717, 0718 zu ermSglichen. Die Ausgangs- 
demultiplexer (0732) zur Weiterleitung der Daten auf unter- 
5 schiedliche Bussysteme werden ebenfalls durch die Ergebnisse 
angesteuert, wobei bevorzugt eine Umordnung der Ergebnisse 
durch eine flexible Obersetzung, z.B. durch eine Lookup- 
Tabelle (0729) stattfindet, sodass den Ergebnissen frei tiber 
Demultiplexer (0732) zu selektierende Bussysteme zugeordnet 
10 werden konnen. 

Baumartiges Zusammenfiigen (Tree Merge) 

In vielen Applikationen ist es wunschenswert an mehreren 
Punkten Teile eines Datenstromes zu mergen. Es ergibt sich 

15 daraus eine Baum ahnliche Struktur. Dabei entsteht das Pro- 
' blem, dali keine zentrale Ehtscheidung uber die Selektion ei- 
nes Datenwortes gefallt werden kann, sondern daB die Ent- 
scheidung uber mehrere Knoten verteilt ist. Daher ist erfor- 
derlich an alle Knoten den jeweiligen Wert von SNDCNT zu 

20 ttbertragen. Bei hohen Taktf requenzen ist das jedoch nur mit 
einer Latenzzeit, die beispielsweise durch mehrere Regis ter- 
stufen wahrend der (Jbertragung. entsteht, moglich. Damit bie- 
tet diese Losung zunachst keine sinnvolle. Performance. 
Ein Verfahren zum Verbessern der. Performance ist, dali lokale 

25 Entscheidungen in jedem Knoten unabhangig vom Wert von SNDCNT 
zugelassen werden. Ein beispielsweise einfacher Ansatz ist, 
das Datenwort mit der jeweils kleinsten Timestamp an einem 
Knoten zu selektieren'. Dieser Ansatz wird jedoch problema- 
tisch, wenn.ein Datenpfad an einem Knoten zu einem Takt kein 
• 30 Datenwort. liefert. Nun kann nicht entschieden werden, welcher 
Datenpfad der zu bevorzugende ist.. 

Der nachfolgende Algorithmus verbessert dieses Verhalten: 

29 



WO 02/071249 



PCT/EP02/02403 



a) Jeder Knoten erhalt einen eigenstandigen SNDCNT Zahler 
SNDCNT K . 

b) Jeder Knoten soil n Eingangsdatenpf ade (P 0 ..P n ) besit- 
zen . 

c) Jeder Knoten kann mehrere Ausgangsdatenpf ade besitzen, 
die mittels eines Ubersetzungsverf ahrens, z.B. einer 
durch eine iibergeordnete Konf igurationseinheit CT konfi- 
gurierbare Lookup-Tabelle, abhangig vom Eingangsdaten- 
pf ad selektiert werden. 

d) Der Root-Knoten besitzt den Haupt-SNDCNT auf den alle 
SNDCNTk gegebenenf alls synchronisiert werdem. 

Zur Selektion des korrekten Datenpfades wird folgender Algo- 
rithmus angewendet : 

I. Sofern Daten an alien P n Eingangsdatenpf aden anstehen gilt: 

a) Auswahl' des Datenpfades P (TS ) mit der kleinsten Timestamp 
Ts. 

b) Zuweisung von K := Ts+1; SNDCNT > Ts+1 gilt SNDCNTr := 
SNDCNT. 

II. Wenn nicht an alien Pn Eingangsdatenpf aden Daten anstehen 
gilt': 

a) Auswahl eines Datenpfades nur, wenn die Timestamp Ts == 
SNDCNT K 

b) SNDCNTr := SNDCNT + 1 

c) SNDCNT. := SNDCNT + 1 

III. Wird in einem Takt keine Zuweisung durchgefuhrt gilt: 
a) SNDCNTr := SNDCNT' 

IV. Der -Root-Knoten besitzt den SNDCNT/ der .bei jeder Selek- 
tion eines gultigen Datenwo.rtes weiterzahlt und die korrekte 

Reihenfolge der Datenworter bei der Root. des Trees sicher- • 

30 
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stellt. Alle andern Knoten werden auf Wert... von SNDCNT syn- 
chronisiert, sofern erf orderlich (siehe 1-3) . Dabei tritt ei- 
ne Latenzzeit auf, die der Anzahl der' Register entspricht, 
die zu Oberbriickung der Strecke von SNDCNT nach SNDCNT K ein- 
5 gefugt werden mttssen. 

Figur 11 zeigt einen moglichen Baum, der beispielsweise auf 
PAEs ahnlich denen der VPU XPU128ES aufgebaut sind. Ein Root- 
Knoten (1101) besitzt einen integrierten SNDCNT, dessen Wert 

10 am Ausgang H (1102) zur Verfugung steht. Die Datenworte an 
den Eingange A und C werden entsprechend des beschriebenen 
Verfahrens selektiert und jeweils das Datenwort mit der kor- 
rekten Reihenfolge auf den Ausgang L gefuhrt. 
Die PAEs der nachsten Hierarchiestuf e (1103) und auf jeder 

15 weiteren hoheren Hierarchiestuf e (1104, 1105) arbeiten ent- 
sprechend, weisen jedoch folgenden Unterschied auf: Der inte- 
grierte SNDCNT K ist lokal, der jeweilige Wert wird nicht wei- 
tergeleitet. SNDCNT K wird entsprechend des beschriebenen Ver- 
fahrens mit SNDCNT, dessen Wert am Eingang B anliegt synchro- 

20 nisiert. 

SNDCNT kann.' zwlschen samt lichen Knoten, insbesondere aber • 
auch zwischen den einzelnen Hierarchiestuf en, ' beispielsweise ' 
uber Register gepipelinet sein. 

25 

Zusammenfiiqen mittels Speicher (Memory Merge) 
Bei diesem Verfahren werden zum Zusammenf tlhren- von DatenstrS- 
men Speicher verwendet. Dabei wird jedeiti Wert der Timestamp 
ein Sp.eicherplatz zugewiesen. Die Daten werden- dann entspre- 
30 chend des Wertes ihrer Timestamp in dem Speicher abgeiegt; 
mit anderen Worten dient die Timestamp als Adresse der Spei- 
chers telle fUr die zugeordneten Daten. Dadurch ent steht ein 
Datenraum der linear zu den Timestamp. ist, d.h. entsprechend 
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der Timestamp sortiert ist. Erst wenn der Datenraum vollstan- 
dig ist, d.h. alle Daten gespeichert wurden, wird der Spei- 
cher zur weiteren Verarbeitung freigegeben, bzw. linear aus- 
gelesen. Dies ist kann beispielsweise einfach festgestellt 
5 werden, indem gezahlt wird, wieviele Daten in einen Speicher 
geschrieben wurden. Wurden soviele Daten geschrieben wie der 
Speicher Dateneintrage besitzt ist er voll. 

Bei der. Durchfiihrung des Grundprinzipes tritt f olgendes Pro- 

10 blem auf: Bevor der Speicher Itickenlos gefiillt ist, kann ein- 
Oberlauf der Timestamp stattfinden. Ein Oberlauf ist folgen-- 
dermafien definiert: Eine Timestamp ist eine Zahl aus einem 
endlichen linearen Zahlenraum (TSR) . Die Vergabe von 
Timestamps erfolgt streng monoton, wodurch innerhalb des Zah- 

15 lenraumes TSR jede vergebene Timestamp eindeutig ist. Wird 
bei der Vergabe einer Timestamp das Ende des Zahlenraumes er- 
reicht wird die Vergabe beim Beginn von TSR fortgesetzt; da- 
durch entsteht eine Unstetigkeitsstelle . Die nunmehr vergebe- 
nen Timestamp sind nicht mehr eindeutig gegenuber den vorher- 

20 gehenden. Es ist grundsatzlich sicherzustellen, dali diese On~ 
stetigkeitsstellen bei der Verarbeitung berucksichtigt wer- 
den. Der Zahlenraum (TSR) ist daher so groB zu wahien, daB im 
ungtlnstigsten Fall keine Doppeldeutigkeit dadurch entsteht, 
dali zwei identische Timestamp innerhalb der Datenverarbeitung 

25 auftreten. Mit anderen Wprten muB TSR so groil sein, dafi im 

ungiinstigsten Fall, der innerhalb der nachf olgenden Verarbei- 
tungspipelines und/oder Speicher auftreten kann, keine iden- 
tischen Timestamp innerhalb der Verarbeitungspipe.lines 
und/oder Speicher existieren. 

30 Tritt nunmehr ein Oberlauf der Timestamp auf, miissen die' 

Speicher' in jedem Fall darauf reagiereh konnen. Es muss ' davpn 
ausgegangen werden, dafi nach einem Oberlauf teilweise Daten 
mit der Timestamp vor dem (jberlauf („alte Daten") und teil- 
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weise Daten mit der Timestamp nach dem Uberlauf („neue Da- 
ten") in den Speichern enthalten sein werden. 
Die neuen Daten konnen nicht in die Speicherstellen der alten 
Daten geschrieben werden, da diese noch nicht ausgelesen wur- 
den. Daher sind mehrere (mindestens zwei) unabhangige Spei- 
cherblocke vorzusehen, sodafi die alten und neuen Daten ge- 
trennt geschrieben werden k&nnen. 

Zur Verwaltung der Speicherblocke konnen beliebige Verfahren 
eingesetzt werden. Zwei Moglichkeiten werden nahers ausge- 
f uhrt : 

a) 'Sofern immer sichergestellt ist, dali die alteri Daten 

eines bestimmten Timestamp-Wertes vor den neuen Daten 
. dieses Timestamp-Wertes eintreffen, wird getestet, ob 
die Speicherstelle fur die alten Daten noch frei ist. 
Ist dies der Fall liegen alte Daten vor und die Spei- 
cherstelle wird beschrieben, wenn nicht liegen neue Da- 
ten an und die Speicherstelle fur die neuen Daten wird 
beschrieben, 

b) Ist nicht sichergestellt, dali die alten Daten eines be- 
stimmten Timestamp-Wertes vor den neuen Daten dieses 
Timestamp-Wertes eintreffen, kann die Timestamp mit ei- 
ner Kennung versehen werden, die alte und. 'neue 
Timestamps unterscheidet . Diese Kennung kann ein oder 
mehrere Bits breit sein. Bei einer Oberlauf der 
Timestamp wird die Kennung linear verandert. Dadurch 
sind nunmehr alte und neue Daten mit eindeutigen 
Timestamps versehen. E'ntsprechend der Kennung werden 
die Daten einem von mehreren Speicherblocken zugewie- 
sen. 

Bevorzugt werden daher Kennungen verwendet, deren maximaler- 
numerischer Werte berSchtlich kleiner sind als der maximale 
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numerische Wert der Timestamps . Ein bevorzugtes Verhaltnis 
kann durch folgende Formel angegeben werden: 
Kennungmax < TimeStampmax / 2 

Verwendung von Speichem zux Partitionierang breiter Graphen 

Wie aus PACT13 bekannt ist es erf orderlich, groJbe Algorithraeri 
zu paritionieren, d.h. in eine Mehrzahl von Teilalgorithmen 
zu zerteilen, damit dies jeweils auf eine vorgegebene Anord- 
nung und Menge von PAEs einer VPU passen. Die Partitionierung 
ist dabei einerseit's performanceef f izient andererseits natiir- 
lich unter Beibehaltung der Korrektheit des ALgorithmus 
durchzufiihren. Ein wesentlicher Aspekt ist dabei die Verwal- 
tung der Daten und Zustande (Trigger) der jeweiligen Daten- 
pfade. Im Folgenden werden Verfahren zur verbesserten und 
vereinfachten Verwaltung vorgestellt. 

In vielen Fallen ist es nicht mdglich einen Datenf lufigraphen 
an nur einer Kante zu schneiden (Beispiels siehe Figur 12a) , 
20 da der Graph beispielsweise zu breit ist, bzw. da zu viele 

Kanten (1201/ 1202, 1203) an der Schnittstelle (1204) vorhan- 
den sind. 

Die Partitionierung kann erf indungsgemafi derart durchgefuhrt 
werden, dali entsprechend Figur 12b entlang aller Kanten ge- 
25 schnitten wird. Die Daten jeder Kante einer ersten Konfigura- 
tion (1213.) werden in einen separaten Spei.cher (1211) ge- 
schrieben. . 

Es soil ausdrUcklich angeme'rkt werden, dafl zusaitimen iait . (oder 

30 ggf. auch getrennt von) den Daten auch samtliche relevanten 

Statusinformationen der Datenverarbeitung iiber die Kanten 

(beispielsweise in Figur 12b) laufen und in die Speicher ge- 

schrieben werden konnen. Die Statusinformationen sind in der 
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VPU-Technologie beispielsweise durch Trigger (vgl. PACT08) 
reprasentiert . 

Nach der Rekonf iguration werden die Daten und/oder Statusin- 
5 formationen von einer nachfolgeden Konf iguration (1214) aus 
den Speichern . ausgelesen und durch diese Konf iguration wei- 
terbearbeitet . 

Die Speicher arbeiten als Datenempfanger der ersten Konfigu- 
10 ration (also in einer hauptsachlich beschreibenden Arbeits- 
weise) und als Datensender der nachfolgenden Konf iguration 
(also in einer hauptsachlich auslesenden Arbeit sweise) . Die 
Speicher (1211) selbst sind Teil/Ressourcen beider Konfigura- 
tionen. 

15 

Zur korrekten Weiterverarbeitung der Daten ist es notwendig 
die ordentliche zeitliche Reihenfolge zu kennen, in der die 
Daten in die Speicher geschreiben wurden. 

Grundlegend kann dies gewahrleistet werden,- indem die Daten- 
20 strSme entweder 

a) beim Ei.nschreiben, in einen Speicher sortiert werden 
und/oder 

b) beim Auslesen aus einem Speicher sortiert werden 
und/oder » 

25 c) die Sortierreihenfolge mit den Daten gespeichert und der 
nachfolgenden Datenverarbeitung zur Verfiigung gestellt wird* 

Dazu werden den Speichern Steuereinheiten zugeordnet, die so- 
wohl beim Einschreiben der Daten (1210) in die Speicher 
30 (1211) , als auch beim Auslesen der Daten aus den Speichern- 
(1212) fur die Verwaltung der Datenreihenfolgen und Datenab- 
hangigkeiten sorgen. Je nach Ausgestaltung konnen unter- 
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schiedliche Verwaltungsarten und entsprechende Steuermecha- 
nismen eingesetzt werden. 

Zwei mogliche entsprechende Verfahren sollen anhand Figur 13 
5 ausfiihrlicher erlautert werden. Die Speicher sind ahnlich des 
Datenverarbeitungsverf ahren nach PACT 04 einem Array (1310, 
1320) aus PAEs zugeordnet: 

a), In Figur 13a generieren die Speicher ihre Adressen syn- 
chron beispielsweise durch gemeinsame Adressgeneratoren und 

10 unabhangige aber synchrongeschaltete. Mit anderen Worten wird 
die Schreibadresse ' (1301) pro Zyklus weitergezahlt, unabhan- 
gig ob ein Speicher tatsachlich gtlltige Daten zu speichern 
hat. Damit besitzen eine Mehrzahl von Speichern (1303, 1304) 
dieselbe Zeitbasis, bzw. Schreib/Leseadresse . Ein zusatzli- 

15 ches Flag (VOID, 1302) je Datenspeicherstelle im Speicher 

zeigt an, ob gliltige Daten in eine Speicheradresse geschrie- 
ben wurden. Das Flag VOID kann durch das den Daten zugeordne- 
te RDY (1305) generiert werden, entsprechend wird beim Ausle- 
sen eines Speichers das Daten RDY (1306) aus dem Flag VOID 

20. generiert. Fur das Auslesen. der Daten durch die nachfolgende 
Konfiguration wird entsprechend dem Einschreiben der Daten 
eine gemeinsame Leseadresse (1307) generiert, die pro Zyklus 
weitergeschaltet wird. 

25 b) Effizienter ist im Beispiel nach Figur 13b ist die Zuord- 
nung einer Timestamp- zu jedem Datehwort entsprechend des be- 
reits beschriebenen Verfahrens. Die Daten (.1317) werden mit 
der dazugehorenden Timestamp (1311) in der jeweiligen Spei- 
cherstelle gespeichert . Dadurch entstehen keine Liicken in den 

30 Speichern und diese werden effizienter ausgelastet. Jeder 

Speicher weist unabhangige Schreibzeiger (.1313, 1314) fur die 

dateneinschreibende Konfiguration und Lesezeiger (.1315, 1316) 

fur die nachfolgend datenauslesende Konfiguration auf . Ent- 
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sprechend der bekannten Verfahren (beispielsweise entspre- 
chend Figur 7a oder Figur 11) wird beim Auslesen das jeweils 
zeitlich korrekte Datenwort anhand der zugeordneten und mit- 
gespeicherten Timestamp (1312) selektiert. 

5 

Die Sortierung der Daten in die Speicher /aus den Speichern 
kann also nach unterschiedlichen algorithmisch jeweils geeig- 
neten Verfahren erfolgen, wie beispielsweise durch 
a) Zuweisung eines Speicherplatzes durch die TimeStamp 
10 b) Einsortieren in den Datenstrom gemaii der TimeStamp 

c) Speichern je Takt zusammen mit einem VALID-Flag 

d) Speichern der TimeStamp und derer Weitergabe an den nach- 
folgenden Algorithmus beim Auslesen des Speichers 

15 Applikationsabhangig konnen mehrere (oder alle)- Datenpfade 
. auch vor Speichern iiber die erf indungsgemalien Merge-Verf ahren 
zusammengefiihrt werden. Ob dies durchgefiihrt wird hangt im 
wesentlichen von den zur Verfiigung stehenden Ressourcen ab. 
Stehen zu wenig Speicher zur Verfiigung ist eine Zusammenfuh- 

20 rung vor den Speichern erforderlich oder wiinschenswert . Ste- 
hen zu wenig. PAEs zur Verfiigung, werden bevorzugt keine wei^ 
teren PAEs fur eihen Merge verwendet . 

25 Erweiterung der Peripherieinterface (10) durch Timestamp 

Nachfolgend wird eine Verfahren beschrieben, um 10 Kanaien zu 
Peripheriebausteinen und/oder. externen Speichern Timestamps 
zuzuordnen. Die Zuordnung kann unterschiedliche Zwecke erftil- 
len, beispielsweise um eine korrekte Sortierung von Daten- 
. 30 stromen zwischen Sender und Empf anger zuzulassen und/oder 

Quellen und/oder Ziele von Datenstromen eindeutig zu selek- 
tieren. 
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Die nachfolgenden Ausfiihrungen werden am Beispiel der Inter- 
facezellen aus PACT 03 verdeutlicht . PACT 03 beschreibt ein 
Verfahren zur Biindelung von VPU internen Bussen und dem Da- 
tenaustausch zwischen verschiedenen VPUs Oder VPUs und Peri- 
5 pherie (10) . 

Ein Nachteil des Verfahrens ist, daJi die Datenquelle beim 
Empfanger nicht mehr identif izierbar und auch die korrekte 
zeitliche Re.ihenfolge nicht sichergestellt ist. 
10 Folgende neue Verfahren losen dieses Problem, es konnen je- 
weils anwendungs'spezif isch einige oder mehrere der beschrie- 
benen Methoden verwendet und ggf. kombiniert werden: 

a). Indent if ikat ion der Datenquelle 

15 Figur 14 beschreibt beispielhaft eine derartige Identif ikati- 
on zwischen Arrays (PAs, .1408) aus rekonf igurierbaren Elemen- 
ten CPAEs) zweier VPUs. (1410, 1420) Ein Arbiter (1401) se- 
lektiert auf einem datensendenden Baustein (VPU, 1410) eine • 
der moglichen Datenquellen (14,05) , um diese iiber einen Multi- 

20 .plexer (1402) auf die 10 zu schalten. Die Adresse der Daten- 
quelle (1403) wird zusairaiien mit den Daten (1404) an die 10 
gesendet. Der datenempfangend'e Baustein (VPU, 1411) selek- 
tiert entsprechend der Adresse (1403) der Datenquelle den 
entsprechenden Empfanger (1406) iiber einen Demultiplexer 

25 (1407) . Bevorzugt kann mittels eines Ubersetzungsverfahrens, 
z.'B". eiher Lookup-Tabelle, die beispielsweise durbh eine 
iibergeordnete Konfigurationseinheit (CT) konfigurierbar ist, 
eine flexible Zuordnung zwischen iibertragener Adresse (1403) 
und Empfanger (1406) ermoglicht werden. 

30 Es soli ausdrilcklich darauf hingewiesen werden, dass den Mul- 
tiplexern (1402) vorgeschaltet und/oder den Demultiplexer!! 
(1407) nachgeschalte.t Interf ace-Baugruppen entsprechend 
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PACT03 und/oder PACT15 zur konf igurierbaren Aufschaltung von 
Bussystemen verwendet werden konnen. 

b) Einhaltung der zeitlichen Reihenfolge 
5 bl) Das einfachste Verfahren ist, die Timestamp an die 10 zu 
senden und die Auswertung dem Empfanger zu tiberlassen, der 
die Timestamp' entgegennimmt . 

b2) In einer anderen Version wird die Timestamp vom Arbiter 
10 dekodiert, der nur den Sender mit der korrekten Timestamp se- 
lektiert und an die 10 sendet. Der Empfanger erhalt die Daten 
in der korrekten Reihenfolge. 

Die Verfahren nach a) und b) sind entsprechend den Anforde- 
15 rungen der jeweiligen Applikation zusammen Oder auch einzeln 
anwendbar. 

Weiterhin kann das Verfahren durch die Vergabe und Identifi- 
katio.n von Kanalnummern erweitert werden. Eine Kanalnummer 

20 kennzeichnet einen bestimmten Senderbereich. Beispielsweise 
kann eine kanalnummer aus mehreren Identif ikationen bestehen, 
wie Angabe des Busses innerhalb eines Bausteines, des Bau- 
steines, der Bausteingruppe. /.Dadurch ist auch in Anwendungen 
mit einer groBen Anzahl von PAEs und/oder einem Zusammen- 

25 schlufi vieler Bausteine eine. einf ache Identif izierung gege- 
ben. . .. 

Vorzugsweise werden bei der Verwendung von Kanalnummern nicht 
jeweils e'inzelne Datenworte ubertragen, sondern eine- Mehrzahl 
■ 30- von Datenworten werden zu. einem Datenpaket zusammengef afit und 
sodann unter Angabe der. Kanalnummer Ubertragen.. Das Zusammen- 
fassen der einzelnen Datenworte kann beispielsweise mittels 
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eines geeigneten Speichers erfolgen, wie z.B. in PACT18 
(BURST-FIFO) beschrieben. 

Es soil darauf hingewiesen werden, dass die iibertragenen 
5 Adressen und/oder Timestamp bevorzugt als Kennungen oder Teil 
von Kennungen in Bussystemen nach PACT15 eingesetzt werden . 
konnen . 

Vollumf anglich wird das Verfahren nach PACT07 in das Patent 
10 eingegliedert, welches durch das beschriebene Identifizie- 
rungsverfahren erweitert werden kann. Weiterhin sind die Da- 
teniibertragungsverf ahren nach PACT18 vollumfanglich einge- 
gliedert, fur die das beschriebene Verfahren ebenfalls Anwen- 
dung finden kann. 

15 

Aufbau von Seqaenzern 

Durch den Einsatz von TimeStamps oder vergleichbaren Verfah- 
ren wird ein einfacher Aufbau von Sequenzern aus Gruppen von 
20 PAEs ermoglicht. Die Busse und Grundfunktionen der Schaltung 
werden konf iguriert , die Detailf unktion und Datenadressen 
werden durch einen OpCode zur Laufzeit flexibel eingestellt. 

Mehrere diese Sequenzer lassen sich zugleich innerhalb eines 
25 PA (Arrays aus PAEs) aufbauen und betreiben. 

Die Sequenzer innerhalb einer VPU sind entsprechend des Algo- 
rithmus aufbaubar, Beispiele wurden in mehreren vollumfang- 
lich. eingegliederten Schrxften des Erfinders bereits gegeben. 
30 insbesondere soil auf PACT13 verwiesen werden, worin der Auf- 
bau von Sequenzern aus einer mehrzahl von'. PAEs beschrieben 
1st, was als beispielhafte Grundlage fur die nachfolgende Be- 
schreibung .dient . 
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Im Detail lassen sich zum Beispiel folgenden Ausgestaltungen 
von Sequenzern frei anpassen: 

• Art und Menge der IO/Speicher 

5 • Art und Menge der Interrupts (z.B. iiber Trigger) 

• Befehlssatz 

• Anzahl und Art von Registern 

Ein einfacher Sequenzer laflt sich beispielsweise aus 
10 1. einer ALU zur Durchfiihrung der arithmetischen und logi- 
schen Funktionen 

2. einem Speicher zur Speicherung der Daten, quasi als Re- 
gistersatz 

3. einem Speicher als CodeQuelle far das Programm (z.B. 
15 normaler Speicher nach PACT22/24/13 und/oder CT nach 

PACT 10/ PACT 1 3 und/oder speziellen Sequenzern nach 
PACT 0 4 ) 
aufbauen 

Ggf . wird der Sequenzer urn IO-Elemente (PACT03, PACT22/24) 
20 erweitert. Zudem lassen sich weitere PAEs als Datenquellen' 
oder -empf anger anschliefien. 

Je nach eingesetzter CodeQuelle kann das Verfahren nach 
PACT 08 zum Einsatz kommen, das das direkte Setzen von Opcodes 
25 einer PAE iiber Datenbusse, sowie die Angabe der Datenquel- 
len/-ziele zulSfit. 

Die Adressen der Datenquellen/-ziele lassen sich beispiels- 
weise per TimeStampverfahren iibertragen. Weiterhin kann der 
Bus zur Ubert.ragung der OpCodes. verwendet werden. 



In einer bei.spielhaften Implementierung nach Figur 15 besteht 
ein Sequenzer aus einem RAM zur Speicherung des Programmes 
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(1501), einer PAE zur Berechnung der Daten_ (ALU) (1502), ei- 
ner PAE zur Berechnung des Programmzeigers (1503), einem 
Speicher als Registersatz (1504) und einer 10 fur externe Ge- 
rate (1505) . 

5 Durch Verdrahtung entstehen zwei Bussysteme, ein Eingangsbus 
zur AID" IBUS (1506) und ein Ausgangsbus von der ALU OBUS 
(1507) . Den Bussen zugeordnet ist jeweils eine 4-bit breite 
Timestamp, die die Quelle IBUS-ADR (1508) bzw. das Ziel OBUS- 
ADR (1509) adressiert. 

10 Von 1504 wird der Programmzeiger (1510) an 1501 gefuhrt. 1501 
liefert den OpCode (1511) zuruck. Def OpCode wird- in Befehle 
fur die ALU (1512) und den Programmzeiger (1513), sowie die 
Datenadressen (1508, 1509) aufgespaltet . Zur Aufspaltung des 
Busses kSnnen die nachfolgend beschriebenen SIMD Verfahren 

15 und Bussysteme verwendet werden. 

1502 ist als Akkumulatormaschine ausgestaltet und unterstiitzt 

beispielsweise folgende Funktionen: 

Id <reg> Lade Akkumulator (1520) von Register 

20 add_sub <reg> Addiere/Subtrahiere Register zum Akkumulator 
sl_sr Akkumulator schieben • 

rl_rr Akkumulator rot ieren ■ 

st <reg> Schreibe Akkumulator in Register 

Fur die Befehle sind 3-bit notwendig. ,,Ein viertes Bit gibt 

25 die Art der Operation an: addieren oder subtrahieren, rechts- 
oder linksschieben. 

1502 liefert den ALU-Status carry auf Triggerport 0 und zero 
auf Triggerport 1. 

30 

<reg> ist folgendermaBen kodiert: 
0..7 Datenregister in 1504 

8 Eingangsregister (1521) Programmzeigerberechnung 
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9 IO-Daten 

10 IO-Adressen 

Fur die Adressen werden 4 bits benotigt. 

5 1503 unterstiitzt folgende Operationen iiber den Programmzei- 
ger: 

jmp Springe auf Adresse im Eingangsregister (2321) 

jtO Springe auf Adresse im Eingangsregister 

angegeben ist, wenn TriggerO gesetzt 
10 jtl Springe auf Adresse im Eingangsregister 

angegeben ist, wenri Trigger! gesetzt 
jt2 Springe auf Adresse im Eingangsregister 

angegeben ist, wenn Trigger2 gesetzt 
jmpr Springe zu PP plus Adresse im Eingangsregister 

15 Fur die Befehle sind 3-bit notwendig. Ein viertes Bit gibt 
die Art der Operation an: addieren oder subtrahieren. 

Der OpCode 1511 wird also in 3 Gruppen zu je 4 bit zerlegt: 
(1508, 1509), 1512, 1513, 1508 und 1509 konnen bei dem gege- 
20 benen Instruktionssatz identisch sein. 1512, 1513 werden bei- 
spielsweise an das C-Register der PAEs- gefiihrt (vgl. 
PACT22/24) und innerhalb der PAEs als Befehl dekodiert (vgl. 
PACT08). 

25 Entsprechend PACT 13 und/oder PACT11 kann der Seguenzer in ei- 
ne komplexere Struktur eingebaut werden. Beispielsweise sind 
durch <reg> — 11, 12, 13, 14,. 15 weitere Datenquellen adres- 
sierbar, die auch von anderen PAEs stammen kSnnen. Ebenfalls 
lassen.sich weitere Datenempf anger, adressieren.. Datenquellen 

30 und -empfanger k5hnen beliebig, insbesondere PAEs sein. 

Es soil angemerkt sein, dafl die. aufgezeigte. Schaltung nur 12- 
bit des Opcodes 1511 benotigt. Bei einer 32-bit Architektur 
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stehen damit 20-bit optional zur Erweiterung der Grundschal- 
tung zur Verftigung. 

Die Multiplexerfunktionen der Busse kSnnen entsprechend des 
5 beschriebenen TimeStampverf ahrens implementiert werden. Ande- 
re Ausgestaltungen sind ebenfalls mOglich, beispielswiese 
konnten PAEs als Multiplexerstuf en eingesetzt werden. 

10 SIMD Rechenwerke wad SIMD Bnssys teme 

,Bei der Verwendung von. rekonfigurierbaren Technologien zur 
Verarbeitung von Algorithmen entsteht ein wesentliches Para- 
doxon: Einserseits sind urn eine moglichst hohe Rechenleistung 
zu erhalten komplexe ALUs erforderlich, wobei der Aufwand fur 
15 die Rekonfiguration minimal sein- sollte; andererseits sollten 
die ALUs mOglichst einfach sein urn effiziente Verarbeitung 
auf Bitebene zu ermoglichen; andererseits sollte die Rekonfi- 
guration und Datenverwaltung derart intelligent und schnell 
erfolgen, daft sie effizient und einfach zu programmieren ist. 

20 

Bisherig'e Technologien verwenden a) sehr kleine ALUs mit we- 
nig Rekonfigurationsunterstiitzung(FPGAs) und sind auf Bitebe- 
ne effizient, b) groJie ALUs (Cameleon) mit wenig Rekonfigura- 
tionsunterstiltzung , c) eine Mischung a,us groRen ALUs und 
25 kleinen ALUs mit Rekonfigurationsunterstiitzung und Datenver- 
waltung (VPUs) . 

Da die VPU-Technologie die leistungsfahigste Technik dar- 
stellt, soil auf ihr aufbauend ein optimiertes Verfahren ge- 
schaffen werden.. Es soil ausdrucklich darauf hingewiesen wer- 
30 den, daJ3 dieses Verfahren ebenfalls fur die anderen Architek- 
turen eingesetzt werden kann. 
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Der Flachenaufwand zur effizienten Steuerung von Rekonfigura- 
tion ist iziit einer Menge von ca. 10.000 bis 40.000 Gattern 
pro PAE vergleichsweise hoch. Unterhalb dieser Gattermenge 
lassen sich nur einfache- Ablaufsteuerungen realsieren, die 
die Programmierbarkeit von VPUs erheblich einschranken und 
eine Verwendung als General Purpose Prozessor ausschlie3en. 
Sofern auf eine besonders schnelle Rekonfiguration abgezielt 
wird, miissen zusatzliche Speicher vorgesehen werden, wodurch 
die erforderliche Gattermenge nochmals erheblich ansteigt. 

■ Urn ■ ein ordentliches ' Verh'altnis zwischen ■ Rekbti'fi'guratibns'auf- 
wand und Rechenlei stung zu erhalten, ist somit der Einsatz 
von: grolien ALUs (viel Funktionalitat und/oder groBe Bitbrei- 
te) zwingend erforderlich. Werden die ALUs jedoch zu gro&, 
sinkt die nutzbare parallele Rechenlei stung pro Chip. Bei zu 
kleinen ALU's (z.B. 4-bit) ist der Aufwand zur konfiguration 
aufwendiger Funktionen (z.B. 32-bit Multiplikation) zu hoch. 
Insbesondere der Verdrahtungsaufwand wa"chst in kommerziell 
nicht mehr sinnvolle Bereiche. 

11.1 Einsatz von SIMP Rechenwerken 

Urn ein ideales Verhaltnis zwischen der Verarbeitung von klei- 
nen Bitbreiten r Verdrahtungsaufwand uiid der Konfiguration 
25 aufwendiger Funktionen zu erhalten, wird der Einsatz von 

SIMD-Rechenwerken vorgeschlagen. Dabei werden Rechenwerke der 
Breite m derart zerteilt, dali n einzelne Blocke der Breite b 
= m/n entstehen. Durch Konfiguration wird je Rechenwerk vor- 
gegeben, ob ein Rechenwerk unzerteilt arbeiten soli, oder ob 
0 das Rechenwerk in einen oder mehrere Blocke r j.eweils gleicher 
oder unterschiedlicher Breite zerlegt sein soli. Mlt anderen 
Worten, kann ein Rechenwerk auch derart zerlegt sein, daS> in- 

nerhalb eines Rechenwerkes unterschiedliche Wortbreiten zu- 
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gleich konfigurlert sind (z.B. Breite 32-bit, zerlegt in 
1x16-, 1x8- und 2x4 -bit ) . Die Daten werden derart zwischen 
den PAEs ubertragen, daS> die zerlegten Datenworte (SIMD-WORD) 
zu Datenworten der Bitbreite m zusammengefa&t werden und als 
5 Paket iiber das Netzwerk ilbertragen werden. 

Das Netzwerk ilbertragt immer ein komplettes Paket, d.h. alle 
Datenworte sind innerhalb eines Paketes giiltig, und werden 
nach dem bekannte Handshake-Verfahren ubertragen. 

10 

ll.l.r Umsortieren -der SIMD-WORD 

Fur einen effizienten Einsatz der von SIMD-Rechenwerken ist 
eine flexible und effiziente Umsortierung der SIMD-WORD un- 
tereinander innerhalb eines Busses oder zwischen unterschied- 

15 lichen Bussen erforderlich. 

Die Busschalter nach Figur 5 bzw. 7b, c konnen derart modifi- 
ziert werden, dafi eine flexible Vernetzung der einzelnen 
SIMD-WORD moglich ist. Dazu werden die Multiplexer entspre- . 
chend den Rechenwerken teilbar ausgelegt, derart daJ3 durch 

20 Konfiguration die Teilung bestimmt werden kann. Mit anderen 
Worten, wird beispielsweise nicht ein Multiplexer der Breite 
m. pro Bus verwendet, sondern n einzelhe. Multiplexer der Brei- 
te b = m/n. Es ist nunmehr moglich,- die Datenbusse fur b bit 
Breite zu konfigurieren. Durch die Matrixstruktur der Busse 

25 (Figur 5) wird eine. einfache Umsortierung der Daten ermog- 
licht, wie in Figur 16c dargestellt. Eine erste PAE- sendet 
Daten iiber zwei Busse (1601, 1602) die in je 4 Teilbusse un- 
terteilt sind. Ein Bussystem (1603) verschaltet die einzelnen 
Teilbusse mit zusatzlichen auf dem Bus befindlichen Teilbus- 
.30 se. Eine zweite PAE erhalt unterschiedlich sortierte Teilbus- 
se an ihren beiden Eingangsbuss&n (1604, 1605) . 
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Die Handshakes der Busse zwischen zwei PAEs mit beispielswei- 
se 2-fach SIMD Rechenwerk (1614, 1615) werden in Figur 16a 
logisch derart verkniipft, daJi ein gemeinsamer Handshake 
(1610) filr den neu geordneten Bus (1611) aus den Handshakes 

5 der urspriinglichen Busse generiert wird. Beispielsweise kann 
ein RDY filr einen neu sortierten Bus aus einer logischen UND- 
Verknupfung aller RDYs der Daten fur diesen Bus liefernden 
Busse generiert werden. Ebenso kann beispielsweise das ACK 
eines Daten liefernden Busses aus einer UND-Verkniipfung der 

10 ACKs aller Busse generiert werden, die die Daten weiterverar- 
beiten . 

Der gemeinsame Handshake steuert eine Steuereinheit (1613) 
fur die Verwaltung der PAE (1612) an. Der Bus 1611 wird PAE 
intern auf zwei Rechenwerke (1614, 1615) aufgeteilt. 

15 

In einer ersten Ausfiihrungsvariante finden die Verknupfungen 
der Handshakes innerhalb eines jeden Busknotens statt. Da- 
durch wird es moglich einem Bussystem der Breite m, bestehend 
aus n Teilbussen der Breite b, nur ein Handshake-Protokol zu- 
20 zuordnen. 

In einer weiteren besonders- bevorzugten Ausgestaltung werden 
samtliche Bussysteme in der Breite b ausgestaltet, die die 
kleinste realisierbare Ein-/Ausgabe DatenJbreite Jb eines SIMD- 

25 Word entspricht. Entsprechend der Breite der PAE Datenpfade 
(m) besteht nunmehr ein Ein-/Ausgangsbus aus m/b =,n Teilbus- 
sen der Breite b. Beispielsweise besi'tzt eine PAE mit 3 32bit 
Eingangsbussen und 2 32 bit Ausgangsbusse bei einer kleinsten 
SIMD-Wortbreite von 8 tatsachlich 3x4 8bit Eingangsbusse und 

30 2x 4 8bit Ausgangsbusse. 

Jedem der Teilbusse sind samtliche Handshake- und Steuersi- 
gnale zugeordnet. 
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Der Ausgang einer PAE versendet die mit denselben Steuersi- 
gnalen fur samtliche n Teil-Busse. Eingehende Quittierungs- 
signale aller Teilbusse werden miteinander logische ver- 
knupft, z.B. durch eine UND-Funktion . Die Bussysteme konnen 

5 jeden Teilbus frei vexschalten und unabhangig routen. Die 

Bussystem und insbesondere die Busknoten verarbeiten und ver- 
kniipfen die Handshake-Signale der einzelnen Busse unabhangig 
ihres Routings, ihrer Anordung und Sortierung nicht. 
Bei einer PAE eingehenden Daten werden die Steuersignale 

10 Scimtlicher n Teilbusse derart miteinander verkniipft, dass ein 
allgemeingiiltiges Steuersignal quasi .als.Bussteuexsignal- filr 
den Datenpfad generiert wird. 

Beispielsweise konnen in einer "dependend" Betriebsart gemaii 
Definition RdyHold-Stufen fur jeden einzelnen Datenpfad ein- 
15 gesetzt werden und erst wenn samtliche RdyHold-Stufen anste- 
hende Daten signalisieren, werden diese von der PAE ubernom- 
men. 

In einer "independend" Betriebsart gemafi Definition werden- 
die Daten jedes Teilbusses einzeln. in Eingangs register der 

20 PAE geschrieben und quittiert, wodurch der Teilbus sofort fur 
eine nachste Dateniibertragung frei ist. Das Vorhandensein al- 
ler erforderlichen Daten von alien Teilbussen in den Ein- 
gangsregis tern wird innerhalb der PAE durch geeignete logi- 
sche Verkniipfung. der fur jeden Teilbus, im Eingangsregister 

25 gespeicherten RDY-Signale detektiert, woraufhin die PAE mit 
der Datenverarbeitung beginnt. 

Der wesentliche daraus resultierende Vorteil dieses Veffah- 
rens ist, dass die SIMD-Eigenschaft von. PAEs keinerlei beson- 
30 deren Einflu& auf das verwendete Bussystem aufweist. Es wer- 
den lediglich wie in Figur 16b dargestellt mehr Busse (n) 
(1620) einer geringeren Breite (b) und die zugeordneten 
Handshakes (1621) bendtigt. Die Verschaltung selbst bleibt 
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unberuhrt. Die PAEs verkniipfen und verwalten die Steuerlei- 
tungen lokal. Dadurch entfallt der zusatzliche Hardwareauf- 
wand in den Bussystemen zur Verwaltung und/oder Verkniipfung 
der Steuerleitungen. 
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Titel: Verfahren zur Steuerung der (Jbertragung von 

DatenstrSmen 

15 

Patent anspriiche 

1. Verfahren zum Steuern von pipeli'neartigen Datenverarbei- 
tungen und/oder Bussystemen dadurch gekennzeichnet, dass 

20 abwechselnd unterschiedliche Protokolle angewendet werden, um 
eine' Datenverarbeitung in jedem Takt z.u ermoglichen; 

2. Verfahren nach- Anspruch 1, dadurch gekennzeichnet, dass 
ein Protokoll die Annahme der Daten duxch einen Empfanger be- 

25 statigt. 

3. Verfahren nach Anspruch 1-2, dadurch gekennzeichnet, dass 
ein Protokoll die voraussichtliche Annahme der Daten durch 
einen Empfanger bestatigt. 

. 30 

4. Verfahren nach Anspruch. 1-3, dadurch gekennzeichnet, dass 

wenn die fur eine voraussichtliche Abnahme bestatigten Daten 

durch einen Empfanger nicht angenommen werden konnen, diese 
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in ein Puf ferregister geschrieben werden und danach bis zur 
Entleerung des Puf ferregisters keine weitere voraussichtliche 
Datenannahme durch einen Empf anger mehr bestatigt wird. 

5 5. Verfahren nach Anspruch 1-4, dadurch gekennzeichnet, dass 
das Puf ferregister sobald der Empfanger wieder Daten anniitrait 
geleert wird, bevor weitere andere Daten an den Empfanger ge- 
sendet werden. 

10 6. Verfahren zum Obertragen von Daten eines Senders an mehre- 
re Sender, dadurch gekennzeichnet, ' dass 

die Quittierung der Datenabnahme aller Sender logisch ver- 
kniipft wird. 

15 7. Verfahren zum Obertragen von Daten mehrerer Senders an ei- 
nen Sender, dadurch gekennzeichnet, dass 

die Reihenfolge der Obertragungsanf orderungen mehrerer Sender 
gespeichert wird und die Obertragurig der Daten in der exakten 
Reihenfolge ermoglicht wird. 

20 

8 . Verfahren zum Obertragen von Daten mehrerer Senders an ei- 
nen Sender, dadurch gekennzeichnet, dass 

jedem Sender bei einer erfolgten Buszugrif f sanf orderung eine 
Sendernummer zugeteilt wird, die seine Position in der Reihe 
25 der Sender bezeichnet. 

9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass 
der Reihe nach alle Sendernummern von einem Auf rufnummernge- 
nerator aufgerufen werden, indem alien Sendern die aktuelle 

30 Auf ruf snummer mitgeteilt wird, jeder Sender diese mit seiner 
Sendenummer vergleicht und bei Obereinstimmung den Bus bean- 
sprucht . 
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10. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass 
die Sendenummern pro Zeiteinheit weitergezahlt werden. 

11. Verfahren nach Anspruch 8-9, dadurch gekennzeichnet, dass 
5 der Bus arbitriert wird, wenn mehrere Sender dieselbe Sender- 

nummer zugeteilt haben. 

12. Verfahren nach Anspruch 8-9 und 11, dadurch gekennzeich- 
net, dass 

10 der Aufrufnummerngenerator erst weiterzahlt wenn kein Sender 
den Bus' raehr arbitriert hat. 

13. Verfahren zum Verwalten von Datenstromen, dadurch gekenn- 
zeichnet, dass 

15 den Daten eine Kennung zugewiesen wird. 

14. Verfahren nach Anspruch 13, dadurch gekennzeichnet, dass 
die Kennung eine zeitliche Reihenfolge festlegt. 

20 15. Verfahren nach Anspruch 13, dadurch gekennzeichnet, dass 
die Kennung eine Herkunfts- oder Zieladresse festlegt. 

16. Verfahren nach Anspruch 13-14, dadurch gekennzeichnet, 
dass 

25 anhand der Kennung das Zusammenfuhren der Daten in der ur- 
sprtinglichen Reihenfolge mittels eines Bussystems definiert 
wird. 

17. Verfahren nach Anspruch 13-14, dadurch gekennzeichnet, 
30 dass 

anhand der Kennung das Zusammenfuhren der Daten in der ur- 
sprunglichen Reihenfolge mittels eines Speichers definiert 
wird. 
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18. Verfahren nach Anspruch 13-17, dadurch gekennzeichnet, 
dass 

die Kennung iiber die peripheren Interface versendet wird. 

19. Verfahren nach Anspruch 13-17, dadurch gekennzeichnet, 
dass 

die Kennung in Speicher zusammen mit den Daten geschrieben 
wird. 

20. ' Verfahren zum Partitioniern von Graphen, dadurch gekenn- 
zeichnet, dass 

an den Schnittkanten Speicher eingefiigt. werden. 

21. Verfahren nach Anspruch 20, dadurch gekennzeichnet, dass 
je Kante eines Graphen ein Speicher verwendet wird. 

22. Verfahren nach Anspruch 20, dadurch gekennzeichnet, dass 
Multiplexer mehrere Kanten v'or einem Speicher zusammenfassen. 

23.. Verfahren nach. Anspruch 20-22, dadurch gekennzeichnet, 
dass 

eine Kennung mit den Daten gespeichert wird.. 

24. Verfahren zum Aufbau von Sequenzern aus mehreren. PAEs, da- 
durch gekennzeichnet, dass 

■die den Daten zugeordnete Kennung, zur Adressierung von Daten- 
quellen und/oder Datenzielen dient. 

25. Verfahren zum Aufbau von Sequenzern aus mehreren PAEs, da- 
durch gekennzeichnet, dass 

die den Daten zugeordnete Kennung den Datenv.erarbeitungbef ehl 
beinhaltet . 
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26. Pipelineartiges Datenverarbeitungsverf ahren, dadurch ge- 
kennzeichnet, dass 

den Datenverarbeitungselementen FIFO-Puffer zur zeitlichen 
Entkopplung zwischengeschaltet sind. 

27. Verfahren nach Anspruch 26, dadurch gekennzeichnet, dass 
die FIFO-Puffer konf igurierbare Latenzzeiten aufweisen, um Da- 
tenpfade. in ihrer Verzogerung auszubalancieren. 

28. FIFO-Speicherverf ahren, dadurch gekennzeichnet, dass 
der Auslesevorgang bei einem fruher ausgelesenen Datenwort 
wieder aufgenommen werden kann. 

29. FIFO-Speicherverf ahren, dadurch gekennzeichnet, dass 

der Einschreibvor'gang bei einem fruher eingeschriebenen Daten-' 
wort wieder aufgenommen werden kann. 

30. Verfahren nach Anspruch 28-29, dadurch gekennzeichnet, 
dass 

ein Sicherungsregister die Adressposition des Datenwortes si- 
chert, an dessen Adresse ein. Vorgang wiederholt werden kann. 

31. Verfahren nach Anspruch 28-30, dadurch gekennzeichnet, 
dass/ 

der Leer- oder Vollzustand des FIFOs durch Vergleich mit dem 
.Sicherungsregister getestet wird. 

32. Verfahren nach Anspruch 28-31, dadurch gekennzeichnet,;. 
dass 

das Sicherungregister beliebig auf jede Adresse gesetzt werden 
kann . 
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